本次发布的数据集afrikaans-30s,该数据集包含约50小时的南非荷兰语(Afrikaans)语音,提取自教堂布道,并配有经过清理和对齐的转录文本。专门用于为低资源南非荷兰语语音微调多语言自动语音识别(ASR)模型,如OpenAI的Whisper(特别是`large-v3`版本)。音频被分割为固定的30秒片段(带有3秒重叠以保留上下文),采样率为16 kHz单声道16位PCM。转录文本使用Whisper的非英语文本标准化规则进行归一化处理(小写字母,无标点符号/变音符号,移除括号/圆括号,压缩空格)。该数据集旨在提升Whisper在真实世界、自发南非荷兰语语音(如布道、公告、对话)中的表现,涵盖多种口音和噪音环境。 - **语言**:南非荷兰语(`af`) - **领域**:非正式/自发语音,主要为南非宗教/社区内容 - **总时长**:约50小时(后处理) - **片段**:数千个30秒片段,分为训练/验证/测试集(80/10/10比例) - **许可证**:CC-BY-4.0(仅供研究用途)
Dataset card内容:
Files and versions内容:
关于,国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。
关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)