香港中文大学(深圳) 本次发布的数据集 SA-Eval, SA-Eval数据集是基于多个公开数据集构建的,包含音频分类、音频标注和音频问答三种任务。该数据集通过结合不同的语音指令和背景音频,模拟现实世界中的多种场景,分为容易和困难两种难度级别,以评估模型在不同条件下的性能。数据集的构建利用了GPT-4o生成多样化的指令,并通过不同的TTS模型生成相应的语音指令,再与音频信号混合,形成最终的测试集。
README 内容:
关于 香港中文大学(深圳) , 香港中文大学(深圳)是一所位于中国广东省深圳市的综合性研究型大学,是香港中文大学在深圳的校区。该校致力于培养具有国际视野和专业素养的人才,研究领域涵盖数据科学等多个学科。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)