莱斯大学 本次发布的数据集 GIQ, GIQ数据集是一套旨在评估视觉和视觉-语言基础模型几何推理能力的综合基准。该数据集包含了224个多样化的多面体图像,包括柏拉图、阿基米德、约翰逊和卡塔兰固体,以及星形和复合形状,涵盖了不同的复杂性和对称性。数据集包括模拟和真实世界图像,从多个视角捕获,以评估模型对对称性的识别、从单张图像中重建复杂几何形状的能力,以及在不同视角和真实世界条件下准确推理形状等价性的能力。GIQ数据集的创建过程涉及使用Mitsuba物理渲染器生成模拟多面体,以及从纸张构建物理模型并在各种室内外环境中拍摄。该数据集为诊断和提升视觉系统中的几何智能提供了一个有针对性的基准,为未来改进空间感知和3D感知视觉推理奠定了基础。
关于 莱斯大学 , 莱斯大学是一所位于美国德克萨斯州休斯顿的私立研究型大学,以其小班制教学、卓越的科研和精英教育而闻名。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)