莫哈梅德·本·扎耶德人工智能大学 本次发布的数据集 PhyBlock, PhyBlock是一个用于评估视觉语言模型在物理理解和规划能力方面的基准数据集。该数据集由两部分组成:层级组装规划和物理理解视觉问答。层级组装规划包括400个组装任务,而物理理解视觉问答则包含2200个经过精心策划的问题。数据集通过一个物理引擎构建,确保场景的物理精确性和可行性。数据集旨在评估模型在空间推理和基本物理概念理解方面的能力,包括对象属性、空间关系和整体场景理解。
关于 莫哈梅德·本·扎耶德人工智能大学 , -
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)