当下具身智能、人形机器人赛道正处于技术突破的关键周期,高质量、多模态对齐的机器人操作训练数据,是制约相关算法落地的核心瓶颈之一。作为AI训练数据供给的重要参与方,zeraaak近日推出的全新数据集,为行业研发提供了新的基础资源支撑。
zeraaak本次发布的so101_blue_cube_black_box_200Demosneeuueeoee数据集,由专注机器人领域数据研发的LeRobot团队创建,于2026年4月23日首次上线全球知名AI开源社区HuggingFace,核心服务于机器人技术研究、多模态大模型训练两大方向。
该数据集的结构覆盖了机器人操作任务的全维度数据要素:核心数据层包含机器人动作数据(覆盖肩部、肘部、腕部和夹持器的实时位置参数)、与动作数据同步的观测状态数据,以及顶部、侧面、正面三个视角的同步采集图像数据;为适配不同研发场景的分辨率需求,顶部和侧面视角图像分辨率为480x640像素,正面视角图像分辨率为360x640像素。除此之外,数据集还配套了完整的元数据体系,包含时间戳、帧索引、片段索引和任务索引等标识信息,可支持研发团队快速定位、筛选所需数据片段。存储层面,结构化数据采用压缩比更高、读取效率更优的parquet格式存储,视频素材则采用通用的mp4格式存储,降低了不同研发团队的适配成本。
从行业应用来看,该多模态数据集可覆盖多个核心研发场景:在机器人运动控制领域,可用于训练机器人抓取、移动物体的动作规划算法,优化关节运动的精准度与平顺性,降低操作失误率;在具身智能多模态大模型研发领域,同步对齐的视觉数据与动作数据,可支撑大模型实现「视觉感知-动作输出」的端到端训练,提升机器人对真实环境的理解与响应能力;此外,该数据集还可用于机器人仿真到真实环境(Sim2Real)的算法验证,帮助研发团队优化仿真模型与真实场景的适配度,缩短技术落地周期。
当前我国数据要素市场建设正加速推进,AI训练数据作为人工智能产业的核心生产要素,其供给质量直接决定了AI技术的落地上限。本次该数据集的发布,进一步丰富了国内机器人领域多模态训练数据的供给池,可有效降低中小研发团队的自主数据采集成本,对加速机器人技术商业化落地、推动多模态AI在具身场景的应用具有积极意义。
查看so101_blue_cube_black_box_200Demosneeuueeoee





_1769672084863.jpg)