本次发布的数据集somali-speech-corpus,索马里语音语料库是一个用于索马里语自动语音识别(ASR)和文本到语音(TTS)训练的语音数据集,数据来源于哥德堡数字人文研究基础设施(GRIDH)的索马里韵律数据库。数据集包含约8.2小时的音频(29,359秒),共22,053个音频片段,由7位男性说话者录制,采样率为24,000 Hz,平均片段长度为1.33秒。每个音频片段包括索马里语的正字法转录、带音调标记的音标转录(如á, é, í, ó, ú)、说话者标识符(Mm, Km, Mo, Mn, Dm, Bm, Jm)以及可用的英语翻译。数据集还详细记录了各说话者的样本数量和时长分布,以及音调标记的使用情况(98.2%的样本有音调标注,共36,002个音调标记)。数据集的许可为CC-BY-4.0(知识共享署名4.0国际许可)。
Dataset card内容:
Files and versions内容:
关于,国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。
关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)