波士顿大学 本次发布的数据集 SITE, SITE数据集是一个全面的基准数据集,用于评估大型视觉语言模型的空间智能。该数据集由波士顿大学和微软研究院创建,包含来自31个计算机视觉数据集的8068个视觉语言任务。数据集内容涵盖了多种视觉模态,包括单图像、多图像和视频,以及空间智能因素,如形状到环境尺度、空间可视化和方向、内在和外在、静态和动态。数据集的创建过程采用了自下而上的调查和自上而下的策略,结合了认知科学中的三个分类系统。SITE数据集旨在解决现有基准测试的不足,提供一个更全面、更系统的空间智能评估平台。
关于 波士顿大学 , 波士顿大学是美国一所著名的私立研究型大学,位于马萨诸塞州波士顿市,以其优秀的教育质量、研究成果以及丰富的历史传统而闻名。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)