南加州大学 本次发布的数据集 HRIBench, HRIBench是一个视觉问答(VQA)基准,旨在评估视觉语言模型(VLMs)在人类-机器人交互(HRI)中感知人类行为的能力。该数据集包含五个关键领域:非言语提示理解、言语指令理解、人-机器人-物体关系理解、社交导航和个人识别。HRIBench通过从真实世界的HRI环境中收集数据,并对剩余四个领域利用公开可用的数据集来构建。每个领域整理了200个VQA问题,总共1000个问题。该数据集的应用领域旨在解决实时HRI中的核心感知能力问题,例如理解细粒度多模态提示、解决模糊的语言-视觉指令和进行现实世界的空间和物理推理。
README 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)