five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

RobotLearningProject发布机器人学习专项数据集 填补模仿学习、远程操控场景训练数据缺口

五号数据雷达开源数据市场2026-05-05 23:3013
RobotLearningProject于2026年5月5日在HuggingFace首发由LeRobot打造的rollout_so101_dagger2_remote_orange_20260505_160458数据集,覆盖机器人本体状态、视觉感知、操作信号等多维度对齐标注数据,可为机器人模仿学习、远程操作控制领域的算法研发提供标准化训练支撑。

当前,具身智能与服务机器人产业进入快速发展期,模仿学习作为机器人快速习得人类操作技能的核心技术路径,长期面临标注数据维度不全、场景匹配度低、多模态对齐难度大等痛点,尤其是远程操作控制场景下的人机交互数据、动作反馈数据缺口,已成为制约相关技术落地的核心瓶颈之一,行业对垂直场景的高质量标注数据集需求持续攀升。

近日,RobotLearningProject正式对外发布rollout_so101_dagger2_remote_orange_20260505_160458数据集,该数据集由LeRobot创建,首发上线全球主流AI开源社区HuggingFace,定向服务机器人学习任务研发,精准匹配模仿学习、远程操作控制领域的算法训练需求。

本次发布的数据集共包含3个任务片段、总计561帧标注数据,单数据集文件大小为100MB,配套视频文件大小为200MB,视频帧率为30fps;数据采用parquet格式存储,配套视频采用MP4格式存储,可直接适配PyTorch、TensorFlow等主流AI训练框架的读取需求,无需额外格式转换即可接入训练流程。

从数据维度来看,该数据集覆盖了多类核心特征字段:包含机器人动作(6个关节位置)、观察状态(6个关节位置)、前端高清RGB图像(分辨率为720x1280)、干预信号、时间戳、帧索引、片段索引、任务索引等,实现了机器人本体状态、环境视觉感知、操作时序信号的全链路对齐,数据标注精度符合工业级研发要求。

从应用场景来看,该数据集可支撑多个机器人技术方向的研发工作:在模仿学习领域,研发人员可基于标注的“人类操作指令-机器人动作反馈”对应数据,训练机器人快速复现抓取、搬运、装配等精细操作技能,大幅降低传统强化学习的试错成本与训练周期;在远程操作控制领域,数据集收录的干预信号、时序同步数据,可用于优化遥操作系统的响应时延、动作匹配精度,为工业特种机器人、医疗手术机器人、家庭服务机器人等多品类远程操控系统的算法迭代提供数据支撑;此外,多模态对齐的数据结构也可用于跨模态机器人感知算法、自然人机交互算法的测试验证。

作为机器人学习领域的垂直细分数据集,本次发布的产品进一步丰富了全球具身智能赛道的数据集供给体系,为中小研发团队、高校科研团队降低了相关领域的数据采集标注门槛,对加快具身智能技术落地、推动机器人产业智能化升级具有积极意义。

查看rollout_so101_dagger2_remote_orange_20260505_160458

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们