five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

发布afrikaans-30s数据集,应用在语音识别、低资源语言领域

五号数据雷达开源数据市场2026-01-19 09:3623
afrikaans-30s是发布的数据集,于2026-01-18首发在HuggingFace应用于语音识别、低资源语言领域

本次发布的数据集afrikaans-30s,该数据集包含约50小时的南非荷兰语(Afrikaans)语音,提取自教堂布道,并配有经过清理和对齐的转录文本。专门用于为低资源南非荷兰语语音微调多语言自动语音识别(ASR)模型,如OpenAI的Whisper(特别是`large-v3`版本)。音频被分割为固定的30秒片段(带有3秒重叠以保留上下文),采样率为16 kHz单声道16位PCM。转录文本使用Whisper的非英语文本标准化规则进行归一化处理(小写字母,无标点符号/变音符号,移除括号/圆括号,压缩空格)。该数据集旨在提升Whisper在真实世界、自发南非荷兰语语音(如布道、公告、对话)中的表现,涵盖多种口音和噪音环境。 - **语言**:南非荷兰语(`af`) - **领域**:非正式/自发语音,主要为南非宗教/社区内容 - **总时长**:约50小时(后处理) - **片段**:数千个30秒片段,分为训练/验证/测试集(80/10/10比例) - **许可证**:CC-BY-4.0(仅供研究用途)

查看afrikaans-30s

Dataset card内容:

 

Files and versions内容:

 

关于,国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。

关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们