five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

开发者tatsuyaaaaaaa发布虚实混合机械臂抓取数据集 首发HuggingFace 赋能机器人模仿学习研发

五号数据雷达开源数据市场2026-05-17 00:259
开发者tatsuyaaaaaaa于2026年5月16日在HuggingFace首发so_arm101_pick_red_dice_real0.3_sim_dr0.7数据集,该数据集融合30%真实采集数据与70%仿真生成数据,覆盖六自由度机械臂红色骰子拾取全流程任务,可为机器人抓取控制、模仿学习、强化学习领域的研发提供高质量标注训练数据支撑。

随着具身智能产业进入快速落地期,机器人操作能力的训练效率成为制约技术迭代的核心瓶颈——纯仿真训练数据普遍存在「现实鸿沟」,迁移到真实场景时泛化性不足,而全量真实场景数据的采集、标注成本极高,极大抬高了中小研发团队的入场门槛。近日,开发者tatsuyaaaaaaa上线的全新混合数据集恰好回应了这一行业痛点,其发布的so_arm101_pick_red_dice_real0.3_sim_dr0.7数据集专为机器人学习场景打造,是聚焦机械臂拾取红色骰子任务的仿真与真实混合数据集,于2026年5月16日首发于HuggingFace平台。

该数据集由LeRobot工具创建,核心优势在于采用了3:7的虚实数据配比:30%真实场景采集数据保障了任务的场景真实性,70%的仿真生成数据则大幅降低了数据采集成本,同时扩充了训练样本的场景丰富度,dr0.7的命名后缀也对应了仿真数据的占比参数。数据集共包含100个训练episodes,总计111602帧采样数据,采样帧率为30fps,适配主流机器人学习模型的训练需求。数据集所适配的机器人类型为so_follower,为六自由度机械臂(与Sawyer等主流商用机械臂构型接近),可覆盖绝大多数工业拾取、分拣场景的操作需求。

从数据维度来看,该数据集的特征覆盖了机器人控制所需的全量要素:动作空间包含6个浮点数,分别对应肩部平移、肩部升降、肘部弯曲、腕部弯曲、腕部旋转和夹爪位置;观测状态同步输出6个浮点数,与动作空间的关节位置参数一一对应;视觉维度则同步采集了camera1、camera2、camera3三个不同视角的视频流,单路视频分辨率为480x640,采用RGB三通道AV1编码,可支持多视角视觉伺服、三维姿态估计等方向的研发。除此之外,数据集还包含时间戳、帧索引、episode索引等完整元数据,所有结构化数据采用Parquet格式存储,结构化数据文件总大小为100MB,关联视频文件总大小为200MB,便于研发者快速加载、调用。

从应用价值来看,该数据集可广泛应用于机器人控制、模仿学习、强化学习等多个领域:针对模仿学习方向,研发团队可直接基于标注好的拾取操作数据训练机械臂的端到端控制策略,无需从零搭建采集环境;针对Sim2Real(仿真到真实迁移)研究方向,虚实混合的数据结构可直接用于验证模型的跨场景泛化能力,缩短模型从实验室到落地的适配周期;针对多视角视觉感知研发,三路同步的视角数据也可为视觉定位、姿态识别等算法提供训练素材。当前工业分拣、服务机器人操作等场景正处于规模化落地阶段,该类垂直场景的高质量标注数据集,将有效降低研发门槛,推动具身智能技术的落地效率。

查看so_arm101_pick_red_dice_real0.3_sim_dr0.7

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们