当前,具身智能与多模态机器人已经成为全球AI领域的核心前沿赛道,而高质量、覆盖真实场景偏差的标注训练数据稀缺,是制约机器人从实验室标准化环境走向非结构化真实场景落地的核心瓶颈之一。作为微软联合创始人保罗·艾伦发起成立的全球顶尖非营利AI研究机构,艾伦人工智能研究所长期聚焦通用人工智能、具身智能、多模态学习方向的开源研究,此前发布的多个数据集与模型已被全球研究团队广泛采用。2026年5月20日,该机构在Hugging Face平台正式首发eval_molmoact_cup_stacking_ood机器人控制数据集,为双机械臂精细操作的跨分布场景训练提供了全新的基准数据支撑。
本次发布的数据集基于Hugging Face推出的机器人研究专用工具栈LeRobot创建,专门针对bi_yam_follower双机械臂系统设计,核心目标是支撑机器人操作学习类任务的研发与验证。数据集累计收录21个完整任务片段(episodes),总计20688帧标注数据,覆盖3种不同的叠杯操作任务,结构化数据以Parquet格式存储,总文件大小约100MB,配套多视角视频文件大小约200MB,所有数据均划入训练集(train split)对外开放。
从数据字段来看,该数据集实现了操作全链路的多模态数据覆盖:核心字段包含14维动作指令数组,可对应控制左右机械臂各6个关节及夹爪的位置;14维状态观测数组,可反映各关节及夹爪的实时运行位置;同时包含左、右、顶三个视角的RGB视频流,分辨率为360x640,帧率30fps,采用AV1编码格式,可支撑多视角感知融合算法的训练;此外还配套时间戳、帧索引、片段索引、数据索引、任务索引等完整元数据,方便研究人员按需调用。
作为机器人精细操作领域的经典基准测试场景,叠杯任务要求机械臂具备精准的空间定位、双臂协同控制、多模态感知融合能力,本次数据集专门针对跨分布(OOD)场景设计,可有效帮助训练模型提升在非标准化场景下的泛化能力,除可直接应用于机器人模仿学习、强化学习、行为克隆及多模态感知-动作策略学习等官方提及的研究场景外,还可支撑具身大模型端到端控制训练、家用服务机器人桌面物品整理算法研发、工业柔性分拣场景的小零件码放算法预训练等多个前沿方向的研究。该数据集的开源,也将进一步降低全球中小研究团队获取高质量机器人操作训练数据的门槛,推动多模态机器人领域的技术迭代与落地进程。
查看eval_molmoact_cup_stacking_ood





_1769672084863.jpg)