西安交通大学 本次发布的数据集 ViC-Bench, ViC-Bench是一个专门用于评估视觉交织思维链(VI-CoT)能力的基准数据集,由美团公司开发。该数据集包含四个代表性任务:迷宫导航、拼图游戏、具身长期规划和复杂计数。每个任务都配备了专用的自由风格中间视觉状态(IVS)生成流程,支持函数调用。为了系统地检验VI-CoT能力,我们提出了一套全面的评估方案,包括一个渐进的三阶段策略和有针对性的新指标。此外,我们还建立了增量提示信息注入(IPII)策略,以探索VI-CoT的提示因素。我们广泛地对18种先进的MLLMs进行了评估,揭示了它们VI-CoT能力的关键见解。我们的基准数据集已在Huggingface上公开。ViC-Bench旨在解决现有基准数据集在评估模型推理能力方面的不足,为MLLMs、多模态代理、具身AI和自动驾驶等领域的研究提供基础。
关于 西安交通大学 , 西安交通大学是中国一所以工程为主,兼顾理、工、医、文、经、管、法等多学科协调发展的综合性全国重点大学,是中国最早的高等学府之一,也是国家首批“211工程”和“985工程”重点建设高校。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)