韩国电子通信研究院本次发布的数据集MultihopSpatial,MultihopSpatial是由韩国电子通信研究院等机构联合构建的多跳组合空间推理基准数据集,包含4,500个手工标注的视觉问答对,覆盖1-3跳复杂查询。数据源自COCO和PACO-Ego4D的3,563张空间复杂图像,通过严格的三轮人工验证确保质量。该数据集通过属性、位置和关系三个基础类别的组合,评估视觉语言模型在真实场景中的空间推理与视觉定位能力,特别适用于具身智能代理的开发和评估。
关于韩国电子通信研究院,韩国电子通信研究院(ETRI)是韩国的一家政府资助研究机构,专注于信息通信技术领域的研究与开发,成立于1976年,总部位于大田广域市。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)