作为继通用大模型之后人工智能落地的核心赛道,具身智能的技术迭代与场景落地高度依赖多模态感知数据的支撑。而长期以来,视觉-触觉跨模态训练始终面临高质量标注数据集稀缺的行业痛点:不同于可通过公开渠道批量获取的视觉数据,与真实物理交互绑定的触觉反馈数据采集难度大、标注成本高,且缺乏覆盖多场景、多物体的标准化数据集,成为制约触觉预测、物理交互动力学学习等核心技术突破的关键瓶颈。
针对这一共性需求,哈尔滨工业大学(深圳)联合相关机构研发的大规模多视角自我中心数据集EgoTouch于2026年5月13日正式在arXiv平台首发,为双手物体交互场景下的密集触觉监督提供了标准化数据支撑。
据公开信息显示,EgoTouch数据集覆盖208个典型双手操作任务、1891个独立交互片段,累计收录超20小时的多模态同步数据,涉及1000余种不同材质、形态的日常及工业物体,总帧数达210万。所有数据均通过头戴式、腕戴式摄像头同步采集的RGB视频,搭配双手三维姿态捕捉设备、可穿戴触觉传感器的同步输出整合而成,全量数据完成了帧级时间对齐,可直接用于跨模态模型的训练与测试。
从应用价值来看,该数据集主要面向具身智能交互、多模态触觉预测两大核心领域,可为多个细分场景的技术研发提供支撑:在工业具身机器人领域,可支撑“从视觉观测推断触觉反馈”的相关模型训练,帮助机械臂在无额外触觉传感器的情况下预判抓取力度,降低易碎品、精密部件的操作损耗;在家用服务机器人场景,可助力优化机器人端取物品、协助照料等动作的力度控制,提升人机交互安全性;在VR/AR沉浸式交互领域,可支撑视觉转触觉的模拟技术研发,提升虚拟场景下接触反馈的真实度;此外,该数据集还可为康复外骨骼、人机协同装配等方向的跨模态学习研究提供基准参考。
作为国内为数不多的大规模自我中心双手交互触觉数据集,EgoTouch的发布一方面填补了细分领域的数据集供给空白,为相关技术的标准化迭代提供了统一的测试基准;另一方面也符合当前我国数据要素市场建设中,鼓励高端AI训练数据集研发供给的政策方向,对于推动具身智能技术从实验室走向落地场景具有重要的支撑作用。





_1769672084863.jpg)