five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

香港中文大学(深圳) 发布 INTP 数据集, 应用在 语音合成、自然语言处理 领域

五号数据雷达开源数据市场2025-05-09 06:2835
INTP 是 香港中文大学(深圳) 发布的数据集,于 2025-05-07 首发在 arXiv 应用于 语音合成、自然语言处理 领域

香港中文大学(深圳) 本次发布的数据集 INTP, INTP(Intelligibility Preference Speech Dataset)是一个包含约25万个偏好对(超过2千小时)的多样化领域数据集,旨在通过偏好对齐技术提高零样本语音合成(TTS)系统的清晰度。该数据集涵盖了多种场景,包括绕口令、重复词汇、代码切换和多语言合成等,以解决现有TTS模型在现实世界应用中缺乏鲁棒性和清晰度的问题。INTP的数据集由多个TTS模型生成,并采用多种策略构建偏好对,以增加数据集的多样性和避免简单模式的风险。此外,INTP还通过主观评估验证了其与人类感知的清晰度和自然度的一致性,并展示了其弱到强的泛化能力。INTP数据集对于提高零样本TTS系统的性能和鲁棒性具有重要意义。

查看INTP

关于 香港中文大学(深圳) , 香港中文大学(深圳)是香港中文大学在深圳设立的分校,成立于2014年。该校致力于培养具有国际视野的创新型人才,提供本科、硕士和博士课程,涵盖多个学科领域。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们