首页 / 开源数据市场 / 正文

南加州大学发布 Voxlect 数据集, 应用在语音识别、语言建模领域

五号数据雷达开源数据市场2025-08-06 07:5330

Voxlect 是南加州大学发布的数据集,于 2025-08-03 首发在 arXiv 应用于语音识别、语言建模领域

南加州大学本次发布的数据集 Voxlect, Voxlect是一个针对全球方言和地区语言建模的语音基础模型基准数据集。该数据集由南加州大学的研究团队创建，包含超过200万个训练语音样本，来自30个公开可用的语音语料库，涵盖了英语、阿拉伯语、普通话和粤语、藏语、印地语、泰语、西班牙语、法语、德语、巴西葡萄牙语和意大利语等多种语言的方言和地区语言变体。Voxlect旨在解决自动语音识别（ASR）系统在不同方言和地区语言变体之间的性能差异问题，通过建模和识别不同的方言，可以更好地理解当前语音技术的局限性，并推动更可靠、更鲁棒的语音技术的发展。

查看Voxlect

关于南加州大学 , 南加州大学（University of Southern California，简称USC）是一所位于美国加利福尼亚州洛杉矶的私立研究型大学，成立于1880年，是美国西海岸最古老的私立研究型大学之一，也是美国大学协会成员。USC在多个学科领域都有显著的研究成果和学术贡献，尤其在电影、传媒、商学、工程学和教育学等领域享有盛誉。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

南加州大学 发布 Voxlect 数据集, 应用在 语音识别、语言建模 领域

社区讨论

南加州大学发布 Voxlect 数据集, 应用在语音识别、语言建模领域