首页 / 开源数据市场 / 正文

发布somali-speech-corpus数据集,应用在语音识别、文本到语音领域

五号数据雷达开源数据市场2026-01-10 08:5634

somali-speech-corpus是发布的数据集,于2026-01-09首发在HuggingFace应用于语音识别、文本到语音领域

本次发布的数据集somali-speech-corpus,索马里语音语料库是一个用于索马里语自动语音识别（ASR）和文本到语音（TTS）训练的语音数据集，数据来源于哥德堡数字人文研究基础设施（GRIDH）的索马里韵律数据库。数据集包含约8.2小时的音频（29,359秒），共22,053个音频片段，由7位男性说话者录制，采样率为24,000 Hz，平均片段长度为1.33秒。每个音频片段包括索马里语的正字法转录、带音调标记的音标转录（如á, é, í, ó, ú）、说话者标识符（Mm, Km, Mo, Mn, Dm, Bm, Jm）以及可用的英语翻译。数据集还详细记录了各说话者的样本数量和时长分布，以及音调标记的使用情况（98.2%的样本有音调标注，共36,002个音调标记）。数据集的许可为CC-BY-4.0（知识共享署名4.0国际许可）。

查看somali-speech-corpus

Dataset card内容：

Files and versions内容：

关于,国庆学校是一所位于中国的教育机构，专注于提供基础教育服务。学校致力于培养学生的综合素质，注重学术与品德的全面发展。

关于HuggingFace,Hugging Face是一个机器学习社区协作平台，专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型，包括文本、图像、视频、音频和3D数据，并提供开源工具和付费计算及企业解决方案。

社区讨论

近期热门