浙江大学 本次发布的数据集 T2A-Feedback, T2A-Feedback数据集由浙江大学和香港大学的研究人员创建,旨在提升文本到音频生成模型在处理复杂多事件音频时的基本能力。该数据集包含41,627个文本提示和249,762个生成的音频,每个音频都附有详细的评分。数据集的创建过程中,研究人员利用人工智能反馈学习技术,开发出三个细粒度的音频评分管道,分别评估音频中事件的发生、事件序列的准确性以及音频的声学和和谐质量。通过这些评分管道,研究人员构建了一个大规模的音频偏好数据集,并引入了T2A-EpicBench基准,用于评估文本到音频模型在多事件场景中的高级能力。该数据集可用于提升现有文本到音频生成模型的基本能力,使其在简单和复杂场景中均能取得显著的性能改进。
关于 浙江大学 , 浙江大学是中国著名的高等学府之一,位于浙江省杭州市,是直属于教育部的全国重点大学,也是中国‘985工程’和‘211工程’的成员之一,具有很高的学术声誉和研究成果。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)