香港中文大学(深圳) 本次发布的数据集 NVSpeech, NVSpeech是一个用于中文语音中副语言发声识别和合成的集成和可扩展的流程。该数据集包含48,430个人类语音的句子,带有18个词级副语言类别标签。通过使用副语言感知的ASR模型,自动标注了一个包含174,179个句子的大规模语料库,并支持词级对齐和副语言线索。NVSpeech通过统一副语言发声的识别和生成,提供了第一个开放的大型词级标注的流程,以支持普通话中表达性语音建模,并以可扩展和可控的方式进行识别和合成。数据集和音频演示可在https://nvspeech170k.github.io/获取。
关于 香港中文大学(深圳) , 香港中文大学(深圳)是香港中文大学在深圳设立的分校,成立于2014年。该校致力于培养具有国际视野的创新型人才,提供本科、硕士和博士课程,涵盖多个学科领域。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)