当前实体AI与机器人产业进入快速落地期,而多模态、高标注质量的训练数据集缺口,始终是制约机器人控制算法迭代的核心瓶颈之一。其中人在回路(Hardware-in-the-Loop, HIL)类数据集由于兼顾了真实物理环境的反馈特性与可控标注的标准化优势,成为机器人学习领域的核心刚需资源。近日,机器人研发团队robot-learning-team43正式对外发布全新机器人学习数据集rollout_hil-dataset_20260515_125455,进一步填补了该领域的供给空白。
据了解,本次发布的数据集依托HuggingFace开源的LeRobot工具栈构建,LeRobot作为面向机器人学习场景的专用工具,可实现机器人运动状态与感知数据的同步采集、标准化标注,大幅提升了数据集的复用性与兼容性。该数据集完整覆盖机器人动作与观察状态两类核心数据:动作维度收录了机器人肩部、肘部、腕部、夹持器共6项浮点型位置参数,观察状态维度同步对应上述位置信息,可为模型训练提供精准的动作真值对照。此外,数据集同步搭载了来自前置相机的RGB视频流数据,分辨率为480x640,帧率达30fps,实现了运动状态与视觉感知数据的时间戳完全对齐。其余标注字段还包括干预标志(布尔值)、时间戳、帧索引、剧集索引、任务索引等,可满足不同算法的训练标注需求。根据公开的元数据信息,该数据集共包含1个剧集、79帧数据、适配1类任务,结构化数据以Parquet格式存储,总文件大小300MB(其中结构化数据100MB、视频文件200MB),适配so_follower型机器人的控制与学习任务研发。
从应用场景来看,该数据集可广泛覆盖机器人领域多个前沿研发方向:在模仿学习场景中,研发人员可依托对齐的动作-视觉数据,训练机器人复刻人类示教动作的算法,支撑工业场景下的零部件装配、物料分拣,服务机器人场景下的物品递送、设备操作等功能研发;在视觉伺服控制场景中,同步的视觉输入与关节状态数据,可用于训练机器人根据实时视觉反馈动态调整运动姿态的模型,提升机器人动态避障、精准对位的能力;此外,该数据集也可作为仿真到真实环境迁移(Sim2Real)算法的验证基准,帮助研发人员降低算法落地的适配成本。
作为垂直领域的专业训练数据,本次发布的数据集进一步丰富了机器人学习领域的公开数据供给,对于降低中小研发团队的数据采集成本、推动机器人控制算法的快速迭代具有积极意义,也为数据要素市场垂直赛道的供给侧建设提供了参考样本。
查看rollout_hil-dataset_20260515_125455





_1769672084863.jpg)