上海交通大学 本次发布的数据集 MMAR, MMAR是一个新的基准,旨在评估音频语言模型(ALM)在大量多学科任务中的深度推理能力。MMAR由1000个精心策划的音频-问答三元组组成,从现实世界的互联网视频中收集,并通过迭代错误校正和质量检查进行精炼,以确保高质量。与现有仅限于声音、音乐或特定领域语音的基准不同,MMAR将它们扩展到广泛的真实世界音频场景,包括声音、音乐和语音的混合模式组合。MMAR中的每个问题都按四个推理层进行分层分类:信号、感知、语义和文化,每个层中还有额外的子类别,以反映任务的多样性和复杂性。为了进一步促进该领域的研究,我们用思维链(CoT)推理为每个问题进行注释,以促进未来在音频推理方面的进步。基准中的每个项目都要求进行多步深度推理,超越表面理解。此外,部分问题需要研究生水平的感知和特定领域的知识,从而提高了基准的难度和深度。我们使用广泛的模型评估了MMAR,包括大型音频语言模型(LALM)、大型音频推理模型(LARM)、全能语言模型(OLM)、大型语言模型(LLM)和大型推理模型(LRM),并使用音频标题输入。这些模型在MMAR上的性能突显了基准的挑战性,我们的分析进一步揭示了当前模型在理解和推理能力方面的关键局限性。这些发现强调了在音频语言推理方面进行更多研究的紧迫性,包括数据和算法创新。我们希望MMAR将成为未来在这个重要但探索较少的领域取得进展的催化剂。
README 内容:
关于 上海交通大学 , 上海交通大学是中国历史最悠久、规模最大、实力最强的高等学府之一,位于上海,是国家首批“211工程”和“985工程”重点建设的大学,具有很高的学术声誉和国际影响力。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)