five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

发布somali-speech-corpus数据集,应用在语音识别、文本到语音领域

五号数据雷达开源数据市场2026-01-10 08:5634
somali-speech-corpus是发布的数据集,于2026-01-09首发在HuggingFace应用于语音识别、文本到语音领域

本次发布的数据集somali-speech-corpus,索马里语音语料库是一个用于索马里语自动语音识别(ASR)和文本到语音(TTS)训练的语音数据集,数据来源于哥德堡数字人文研究基础设施(GRIDH)的索马里韵律数据库。数据集包含约8.2小时的音频(29,359秒),共22,053个音频片段,由7位男性说话者录制,采样率为24,000 Hz,平均片段长度为1.33秒。每个音频片段包括索马里语的正字法转录、带音调标记的音标转录(如á, é, í, ó, ú)、说话者标识符(Mm, Km, Mo, Mn, Dm, Bm, Jm)以及可用的英语翻译。数据集还详细记录了各说话者的样本数量和时长分布,以及音调标记的使用情况(98.2%的样本有音调标注,共36,002个音调标记)。数据集的许可为CC-BY-4.0(知识共享署名4.0国际许可)。

查看somali-speech-corpus

Dataset card内容:

 

Files and versions内容:

 

关于,国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。

关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们