当前,具身智能已成为全球人工智能领域的核心攻关方向,而覆盖实机操作全流程的高质量标注交互数据集,是支撑机器人控制算法迭代、多模态感知模型训练、强化学习落地的核心基础资源,长期以来也是行业供给的稀缺板块,优质细分场景数据集的发布往往会成为领域研究者关注的焦点。
近日,人工智能研究机构Nodogoro正式对外发布全新机器人交互数据集cell1_20260516_youssef-mohamed_9pm-12pm_lego20260516_222044,该数据集基于LeRobot工具创建,专门面向机器人学研发任务设计,于2026年5月17日首发于HuggingFace平台,也是近期具身智能开源数据领域的重要新增供给。
据公开参数显示,本次发布的数据集完整收录了starpilot_yam_gripper类型机器人的全流程交互数据,共覆盖2个任务序列(episodes)、3656帧有效数据、1项核心乐高操作任务;数据结构化部分采用parquet格式存储,视频流采用MP4格式存储,采样帧率为30fps,可直接适配主流深度学习框架的训练需求,无需额外做格式转换即可快速接入研发流程。
从数据特征维度来看,该数据集的标注维度覆盖机器人操作全链路,可满足不同方向的研发需求:一是动作控制数据,包含14维浮点数,可支撑两个机械臂的位置、旋转角度、抓取宽度的控制算法训练;二是本体观察状态数据,包含32维浮点数,覆盖编码器角度、IMU加速度与角速度、位姿坐标与四元数、抓取器开合状态及距离等核心状态参数;三是多视角环境感知数据,包含左腕、右腕、基座三个位置摄像头的RGB图像与深度图像,分辨率分别为480x640和768x1024,可支撑多视角视觉感知算法研发;此外数据集还配套了时间戳、帧索引、episode索引、总索引、任务索引等关联字段,方便研究者按需调用不同维度的子集数据,降低数据预处理成本。
作为面向乐高精细组装场景的专用数据集,其潜在应用场景十分广泛:在机器人操作控制领域,可用于双机械臂协同精细操作的策略训练,优化工业组装、服务机器人精细操作等场景下的操作精度与流畅度;在多模态感知学习领域,可支撑融合视觉数据、本体状态数据的多模态感知模型研发,提升机器人对自身状态、操作环境的感知准确率;在强化学习研究领域,可作为实机训练的基准数据集,降低实体机器人训练的硬件成本与安全风险,也可支撑仿真到实机迁移算法的效果验证。该数据集的发布,也进一步丰富了全球具身智能领域的开源数据供给,对推动机器人学领域的开源协作、降低中小研发团队的研发门槛具有重要意义,也为数据要素赋能人工智能前沿技术研发提供了典型样本。
查看cell1_20260516_youssef-mohamed_9pm-12pm_lego20260516_222044





_1769672084863.jpg)