首页 / 开源数据市场 / 正文

香港中文大学（深圳）发布 NVSpeech 数据集, 应用在语音识别、语音合成领域

五号数据雷达开源数据市场2025-08-08 08:3836

NVSpeech 是香港中文大学（深圳）发布的数据集,于 2025-08-06 首发在 arXiv 应用于语音识别、语音合成领域

香港中文大学（深圳）本次发布的数据集 NVSpeech, NVSpeech是一个用于中文语音中副语言发声识别和合成的集成和可扩展的流程。该数据集包含48,430个人类语音的句子，带有18个词级副语言类别标签。通过使用副语言感知的ASR模型，自动标注了一个包含174,179个句子的大规模语料库，并支持词级对齐和副语言线索。NVSpeech通过统一副语言发声的识别和生成，提供了第一个开放的大型词级标注的流程，以支持普通话中表达性语音建模，并以可扩展和可控的方式进行识别和合成。数据集和音频演示可在https://nvspeech170k.github.io/获取。

查看NVSpeech

关于香港中文大学（深圳） , 香港中文大学（深圳）是香港中文大学在深圳设立的分校，成立于2014年。该校致力于培养具有国际视野的创新型人才，提供本科、硕士和博士课程，涵盖多个学科领域。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

香港中文大学（深圳） 发布 NVSpeech 数据集, 应用在 语音识别、语音合成 领域

社区讨论

香港中文大学（深圳）发布 NVSpeech 数据集, 应用在语音识别、语音合成领域