随着全球工业柔性制造、服务机器人智能化的加速落地,多模态感知能力已成为机器人突破精细操作瓶颈的核心技术方向,而覆盖视觉、触觉、运动学参数的高标注度场景数据集,是支撑相关AI模型训练的核心基础资源,长期以来也是行业供给的短板领域。传统机器人操作模型多依赖单一视觉数据训练,在公差较小的精密装配场景中,容易因视觉误差、零件形变等问题出现装配失败,引入触觉反馈的多模态协同方案已成为行业公认的技术路线,但匹配场景的高质量标注数据稀缺,一直制约着相关技术的落地进度。
近日,伦敦国王学院研究团队正式发布Visual-Tactile Peg-in-Hole Assembly Dataset多模态数据集,相关成果于2026年4月22日首发于学术预印本平台arXiv,主要面向机器人操作、多模态感知两大核心研发领域开放使用。
据了解,该数据集聚焦机器人视觉-触觉协同操作的钉孔装配任务打造,数据维度覆盖三大类:一是机器人全流程运动学参数,包含末端执行器的实时位姿数据;二是分辨率为96×96像素的全局视觉图像,可提供装配场景的空间位置参考;三是基于触觉标记流处理生成的15维触觉特征向量,可还原装配过程中的局部力反馈变化。所有数据均通过软演员-评论家算法在统一仿真环境中生成,为了提升训练数据的丰富度与实用性,研究团队创新性采用逆向任务策略,将拔钉轨迹经时空反转和动作随机化处理后生成装配训练数据,大幅降低了高质量装配场景数据的生成成本,同时覆盖了更多传统采集方式难以覆盖的非标准化工况。
该数据集的推出,瞄准了当前多模态感知下的精细装配技术研发痛点,可为机器人强化学习模型提供兼具全局视觉引导与局部触觉校正的标准化示范样本,有望显著提升操作策略在未知几何结构零件中的泛化适配能力。从应用场景来看,基于该数据集训练的多模态感知模型,可广泛适配多个产业场景:在工业制造领域,可支撑3C电子元器件插装、汽车精密零部件装配、航空航天高精部件组装等场景的柔性机器人研发,解决传统机器人对公差适配性差、非标场景作业能力不足的问题;在服务机器人领域,可为家电维修、精密医疗辅助操作等场景的机器人研发提供数据支撑;此外,该数据集也可作为多模态机器人操作算法的通用验证基准,助力全球研究团队统一技术验证维度,加快相关领域的技术迭代效率。从数据要素市场的角度来看,该数据集也填补了AI训练数据在多模态工业操作场景的供给空白,为垂直领域专业数据集的研发与开放提供了参考样本。
查看Visual-Tactile Peg-in-Hole Assembly Dataset





_1769672084863.jpg)