首页 / 开源数据市场 / 正文

Nodogoro发布乐高分拣场景机器人数据集首发HuggingFace 支撑强化学习与视觉伺服控制研究

五号数据雷达开源数据市场2026-05-23 00:4116

AI数据集研发机构Nodogoro于2026年5月22日在HuggingFace首发乐高分拣场景专用多模态机器人数据集，该数据集基于真实双机械臂平台采集，覆盖全链路运动与感知数据，可为机器人强化学习、视觉伺服控制等领域研究提供高质量训练素材。

当前具身智能正成为人工智能领域的核心落地方向，而真实物理场景下的高标注度多模态数据集，是支撑机器人控制算法研发、降低训练成本的核心基础资源，尤其在小物件柔性分拣这类细分工业、服务业场景，符合真实硬件交互逻辑的训练数据供给长期处于稀缺状态。近日，AI数据集研发机构Nodogoro正式发布乐高分拣场景专用机器人数据集cell1_20260518_mohamed_lego_sorting20260518_180724，该数据集于2026年5月22日率先上线全球最大的AI开源社区HuggingFace，面向全球研究人员开放使用。

本次发布的数据集由LeRobot工具栈完成采集创建——作为目前机器人学习领域应用最广泛的开源工具之一，LeRobot的标准化采集流程也保障了数据集的格式兼容性与数据质量。数据集基于starpilot_yam_gripper双机械臂平台采集，围绕乐高分拣单一任务录制了6个完整的任务执行周期（episodes），总计包含4167帧采样数据，采样帧率为30fps；结构化数据采用大数据领域通用的parquet格式存储，视频素材为H264编码的MP4格式，可直接适配PyTorch、TensorFlow等主流AI训练框架，大幅降低研究人员的数据预处理成本。

从数据维度来看，该数据集覆盖了机器人控制所需的全链路多模态数据：首先是14维浮点数格式的动作数据，完整记录了双机械臂的x/y/z空间坐标、rx/ry/rz旋转位姿以及抓取宽度控制参数，可直接用于机械臂运动控制策略的训练；其次是32维浮点数格式的观察状态数据，包含机械臂编码器角度、IMU加速度与陀螺仪数据、姿态位置与四元数、抓取器实时状态等本体感知信息，为控制算法的反馈逻辑训练提供了真实环境下的感知样本；此外还包含多视角视觉与深度数据，覆盖左右腕部的480*640分辨率RGB+深度图像、基座的两个不同分辨率RGB图像（480*640、768*1024），所有视觉素材均以视频格式存储，同时配套时间戳、帧索引、episode索引等元数据，方便研究人员完成时序对齐、片段截取等操作。

从应用价值来看，该数据集瞄准乐高分拣这一典型的小物件分拣场景，首先可直接应用于机器人强化学习研究，研究人员可基于该数据集预训练分拣策略，大幅降低真实硬件训练的试错成本与时间消耗；其次可支撑视觉伺服控制方向的研究，多视角视觉数据与机械臂运动、状态数据的时序对齐，为基于视觉反馈的实时控制模型研发提供了高质量样本；除此之外，该数据集还可用于机械臂运动规划、多模态感知融合、小物件柔性抓取算法等相关方向的研究，未来也有望为工业3C产品分拣、物流小件分拣等商用场景的机器人研发提供预训练数据支撑，进一步降低相关领域的研发门槛，助力具身智能技术的落地迭代。

查看cell1_20260518_mohamed_lego_sorting20260518_180724

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

Nodogoro发布乐高分拣场景机器人数据集 首发HuggingFace 支撑强化学习与视觉伺服控制研究

Dataset card内容：

Files and versions内容：

社区讨论

Nodogoro发布乐高分拣场景机器人数据集首发HuggingFace 支撑强化学习与视觉伺服控制研究