近年来,随着服务机器人、AR/VR、智能座舱等人机交互密集型赛道的快速落地,视线估计作为实现自然、无感人机交互的核心感知技术,其算法在复杂动态场景下的鲁棒性,已成为决定终端产品体验的核心指标。但此前行业内公开的视线估计基准数据集多聚焦静态拍摄场景,缺乏对人机交互过程中常见的光照变化、头眼动作不一致、目标动态移动等真实变量的覆盖,导致大量算法在实验室环境下准确率达标,落地到真实交互场景时往往出现精度跳水的问题,成为制约相关技术商业化落地的核心瓶颈之一。
2026年5月6日,中东技术大学机器人中心在arXiv首发的大规模视线估计基准数据集Gaze4HRI,正是瞄准这一行业痛点推出的标准化评估工具。据公开信息显示,该数据集由中东技术大学机器人中心牵头构建,共覆盖52名不同特征的受试者,收录了人机交互场景下的3258条视频素材,总帧数达620933帧;所有数据均通过机器人腕部摄像头与专业动作捕捉系统同步采集,完整覆盖了多种光照条件、头部-视线动作冲突、交互目标动态移动等真实交互场景下的核心变量,最大限度还原了线下人机交互的真实环境。
与此前通用视线数据集不同,Gaze4HRI专为评估零样本视线估计方法的鲁棒性而设计,通过模拟人机交互中最常见的共享注视、相互注视两类核心任务,填补了现有公开基准在动态人机交互环境中的评估空白。
从行业应用来看,该数据集可为多个领域的算法研发提供核心支撑:在服务机器人领域,基于该数据集训练优化的视线估计算法,可让机器人更精准识别用户的关注目标、操作意图,实现无需语音指令的自然交互,大幅提升陪护、导购、导览等场景的机器人服务体验;在AR/VR领域,该数据集可支撑动态眼动交互、虚拟场景焦距自适应调整、元宇宙社交情绪识别等功能的算法测试,有效降低终端产品的眩晕感、提升交互流畅度;此外在智能座舱驾驶员注意力监测、助残眼控设备等场景,该数据集也可用于提升视线识别算法在复杂动态环境下的准确率,加快相关功能的落地进度。
作为垂直场景的高质量基准数据集,Gaze4HRI的发布也为全球AI训练数据集市场补充了稀缺的人机交互场景资源,对于降低相关领域算法研发的试错成本、加快人机交互技术的商业化落地进程具有重要价值。





_1769672084863.jpg)