罗切斯特大学 本次发布的数据集 VERIFY, VERIFY数据集是由罗切斯特大学和中佛罗里达大学的研究人员创建的,旨在评估最先进的 多模态大型语言模型(MLLMs)的视觉推理能力。该数据集包含多样化的视觉推理任务,要求模型主要依赖视觉信息进行推理,减少了文本上下文的依赖,以降低领域特定知识和语言偏见的影响。每个问题都伴有由人类标注的推理路径,这有助于深入评估模型的决策过程。VERIFY覆盖了从逻辑运算到3D几何和数学的各种模式,为视觉推理的细粒度评估提供了一个透明且可解释的框架。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)