近年具身智能与商用机器人产业进入快速落地期,模仿学习作为机器人快速习得标准化操作技能的核心技术路径,对高标注质量、场景匹配度高的实机采集数据集需求持续攀升,但受限于实机测试成本高、数据标注标准不统一、细分品类训练资源稀缺等问题,中小团队开展机器人控制算法研发往往面临较高的数据门槛。近日,开源机器人技术社区robot-learning正式发布Ex1_postprocessed_merged专项数据集,该数据集于2026年5月16日首发于HuggingFace平台,依托LeRobot框架构建,是面向so_follower机器人品类的垂直领域公开训练数据集。
本次发布的数据集共包含148个完整操作episodes,总帧数量达100362帧,覆盖3类不同的典型操作任务。存储层面,结构化标注数据以parquet格式存储,总大小为100MB,配套前端观测视频总大小200MB,视频采用AV1编码、yuv420p像素格式,分辨率为480×640、帧率30fps,无音频通道,仅包含训练数据分割(0:148)。
数据集标注维度覆盖四大类核心信息:第一类为动作标注,包含肩部平移、肩部提升、肘部弯曲、腕部弯曲、腕部旋转、夹爪位置共6个浮点型关节位置数据;第二类为观测状态数据,与动作维度一致的6个关节实时位置数据,可用于算法动作输出与实机状态的对齐验证;第三类为前端视觉观测数据,即同步采集的操作过程视频序列;第四类为元数据,包含时间戳、帧索引、episode索引、任务索引等标识信息,方便研发人员按需拆分不同任务、不同阶段的训练数据。
从应用价值来看,该数据集可广泛适配机器人操作控制、模仿学习等核心研发场景:例如面向so_follower机器人的桌面级装配、小型物件分拣搬运等任务的模仿学习模型训练,研发人员可直接基于数据集的标准化操作序列训练模型,无需自行完成大量实机演示数据采集;也可用于机器人视觉-动作跨模态对齐算法的验证,基于同步采集的视觉数据与关节状态数据,测试算法对视觉输入到动作输出的映射准确率;还可用于低算力场景下轻量化控制模型的迭代优化,100MB的结构化标注数据体量对训练资源的要求更低,适合中小团队快速开展算法验证。当前全球数据要素市场正加快向垂直产业场景渗透,机器人领域的高质量公开数据集作为具身智能产业的核心生产资料,其开放共享将有效降低行业研发的重复投入,推动细分赛道的技术标准统一,加速机器人操作技能的落地迭代。
首页 / 开源数据市场 / 正文
robot-learning发布so_follower专属机器人数据集Ex1_postprocessed_merged 赋能操作控制与模仿学习研发
五号数据雷达开源数据市场2026-05-17 00:048
开源机器人技术社区robot-learning于2026年5月16日在HuggingFace首发Ex1_postprocessed_merged数据集,该数据集依托LeRobot框架打造,专为so_follower类机器人设计,覆盖3类典型操作任务,将为机器人操作控制、模仿学习等领域的算法研发降低数据获取门槛,提供标准化训练支撑。

社区讨论
近期热门




_1769672084863.jpg)