首页 / 开源数据市场 / 正文

香港中文大学（深圳）发布 INTP 数据集, 应用在语音合成、自然语言处理领域

五号数据雷达开源数据市场2025-05-09 06:2835

INTP 是香港中文大学（深圳）发布的数据集,于 2025-05-07 首发在 arXiv 应用于语音合成、自然语言处理领域

香港中文大学（深圳）本次发布的数据集 INTP, INTP（Intelligibility Preference Speech Dataset）是一个包含约25万个偏好对（超过2千小时）的多样化领域数据集，旨在通过偏好对齐技术提高零样本语音合成（TTS）系统的清晰度。该数据集涵盖了多种场景，包括绕口令、重复词汇、代码切换和多语言合成等，以解决现有TTS模型在现实世界应用中缺乏鲁棒性和清晰度的问题。INTP的数据集由多个TTS模型生成，并采用多种策略构建偏好对，以增加数据集的多样性和避免简单模式的风险。此外，INTP还通过主观评估验证了其与人类感知的清晰度和自然度的一致性，并展示了其弱到强的泛化能力。INTP数据集对于提高零样本TTS系统的性能和鲁棒性具有重要意义。

查看INTP

关于香港中文大学（深圳） , 香港中文大学（深圳）是香港中文大学在深圳设立的分校，成立于2014年。该校致力于培养具有国际视野的创新型人才，提供本科、硕士和博士课程，涵盖多个学科领域。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

香港中文大学（深圳） 发布 INTP 数据集, 应用在 语音合成、自然语言处理 领域

社区讨论

香港中文大学（深圳）发布 INTP 数据集, 应用在语音合成、自然语言处理领域