上海交通大学 本次发布的数据集 BioMotion Arena, BioMotion Arena 是一个新颖的框架,用于通过视觉动画评估大型语言模型 (LLM) 和多模态大型语言模型 (MLLM) 的能力。该框架利用生物运动的视觉感知来放大模型之间的性能差异。特别是,我们采用成对比较评估,并收集了超过 45,000 票,用于对 53 个主流 LLM 和 MLLM 进行评估,涵盖了 90 个生物运动变体。数据分析表明,众包人类投票与专家评分者的一致性良好,证明了我们的 BioMotion Arena 在提供区分性反馈方面的优越性。
关于 上海交通大学 , 上海交通大学是中国的一所顶尖大学,位于上海,拥有悠久的历史和优秀的教育资源,是中国教育部直属的全国重点大学之一,也是‘985工程’和‘211工程’的重点建设高校。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)