当前具身智能已成为全球人工智能产业落地的核心赛道,而标准化、高适配性的机器人动作训练数据集,是制约算法迭代、场景落地的核心瓶颈之一。由HuggingFace推出的LeRobot格式,是当前全球机器人学习领域通用性最强的数据集标准之一,通过统一多模态数据结构、动作标注规则,大幅降低了不同研发主体的算法适配成本,也为跨团队的研究成果对比、技术迭代提供了统一基准。
2026年4月23日,AI数据服务商zeraaak正式发布so101_blue_cube_black_box_200Demosneue11121数据集,是国内为数不多的完全符合HuggingFace LeRobot格式的开源机器人数据集,本次首发上线HuggingFace平台,用户也可通过以下链接查询数据集详情:查看so101_blue_cube_black_box_200Demosneue11121
从公开的数据集信息来看,该数据集覆盖200组机器人蓝箱、黑箱操作的全流程演示样本,包含视觉感知数据、机械臂位姿参数、动作序列标注等多维度信息,所有数据均按照LeRobot格式进行标准化处理,无需额外清洗转换即可直接接入主流机器人学习训练框架。
Dataset card内容:
Files and versions内容:
从应用方向来看,该数据集可广泛应用于多个具身智能研发场景:一是可直接用于机械臂抓取、物体操控等通用操作策略的模型训练,提升机器人对不同形态箱型物体的操作泛化能力;二是可作为基准测试数据集,用于验证机器人决策模型的动作准确率、复杂场景适配能力,为不同研发团队的技术成果对比提供统一参考;三是可支持Sim2Real(仿真到真实场景迁移)技术的研发验证,帮助降低机器人实体测试的成本与风险。
在数据要素成为数字经济核心生产要素的背景下,垂直领域AI训练数据集的标准化开放,是推动细分产业快速迭代的核心基础。本次zeraaak发布的LeRobot格式机器人数据集,不仅进一步丰富了全球具身智能领域的训练数据供给,也为国内机器人数据集的标准化开放、生态共建提供了可参考的实践范本,将有效降低中小研发团队的数据集采集与处理成本,加速国内具身智能技术的落地进程。





_1769672084863.jpg)