南京大学 本次发布的数据集 V-MAGE, V-MAGE是由南京大学等机构创建的一个游戏评估框架,旨在评估多模态大型语言模型(MLLMs)的视觉推理能力。该数据集包含5款不同游戏,超过30个手动设计的关卡,测试模型在定位、轨迹跟踪、计时、视觉记忆等核心视觉技能,以及长期规划、推理等更高级的推理能力。V-MAGE利用视频游戏环境的丰富视觉数据,为评估MLLMs的视觉推理和决策能力提供了一个更加现实、交互性强、视觉丰富的评估框架。
README 内容:
关于 南京大学 , 南京大学是中国的一所综合性研究型大学,位于江苏省南京市,是中国最早的高等学府之一,有着悠久的历史和深厚的文化底蕴,在国内外享有很高的声誉。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)