瑞士联邦理工学院(EPFL) 本次发布的数据集 MARBLE, MARBLE是一个用于评估多模态语言模型(MLLMs)在复杂多模态问题和环境中的推理和规划能力的高难度基准。数据集包含两个挑战性任务:M-Portal和M-Cube,它们要求在空间、视觉和物理约束下制定和理解多步骤计划。M-Portal任务涉及规划、空间推理和多模态集成,灵感来源于游戏Portal 2。M-Cube任务要求将六块拼图式的拼块组装成目标立方体形状,灵感来源于Happy Cube拼图。每个任务都包含两个不同难度的子任务。数据集共有1536个样本,旨在推动下一代模型在多步多模态推理和规划能力方面的发展。
关于 瑞士联邦理工学院(EPFL) , 瑞士联邦理工学院(École Polytechnique Fédérale de Lausanne,简称EPFL)是一所世界顶尖的工程和科学技术大学,位于瑞士洛桑,是瑞士两所联邦理工学院之一。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)