five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

马塞诺大学发布AfriVoices-KE数据集,应用在语音识别、多语言处理领域

五号数据雷达开源数据市场2026-04-11 09:1918
AfriVoices-KE是马塞诺大学发布的数据集,于2026-04-10首发在arXiv应用于语音识别、多语言处理领域

马塞诺大学本次发布的数据集AfriVoices-KE,AfriVoices-KE是一个大规模的多语言语音数据集,包含约3000小时的音频,涵盖五种肯尼亚语言:Dholuo、Kikuyu、Kalenjin、Maasai和Somali。数据集由马塞诺大学等多家机构合作创建,包含750小时的脚本语音和2250小时的自发语音,收集自4777名母语者。数据来源包括编译的文本语料库、翻译和特定领域生成的句子,覆盖农业、金融、医疗等11个领域。数据集通过定制移动应用收集,经过多层质量保证,旨在解决非洲语言在语音技术中的代表性不足问题,推动自动语音识别和文本转语音系统的开发,同时促进肯尼亚语言遗产的数字化保存。

查看AfriVoices-KE

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们