近年来,具身智能与通用机器人技术进入产业化落地的关键期,视觉运动模仿学习作为降低机器人技能训练成本、提升复杂场景操作准确率的核心技术路径,始终面临高质量标注场景数据不足的痛点——尤其是分布外(OOD)场景下的堆叠、装配等精细化操作任务,公开可用的双机械臂系统专业数据集尤为稀缺。近日,知名非营利AI研究机构艾伦人工智能研究所(Allen Institute for AI,简称艾伦AI研究所)正式对外发布eval_openvla_cup_stacking_ood机器人学专用数据集,该数据集于2026年5月20日首发于全球最大的AI开源社区HuggingFace,面向全球研究人员开放使用。
该数据集依托机器人研究工具LeRobot创建,针对双机械臂杯子堆叠这一典型精细化操作场景设计,可支撑机器人模仿学习、强化学习、视觉运动控制等多个技术方向的研发与效果验证。整套数据集包含25个完整的任务执行片段(episodes),总计30143个数据帧,覆盖3种不同的任务设定,数据以每1000帧为一个块的形式组织,核心数据集总大小约100MB,关联的同步录制视频文件总大小约200MB,视频帧率为30FPS,当前开放的数据集仅包含训练集,覆盖全部25个任务片段。
eval_openvla_cup_stacking_ood的核心特征覆盖动作、观测、元数据三大维度,可适配多类研究需求:其一为动作参数,数据集提供14维的浮点数向量,分别对应左机械臂的6个关节位置、1个夹爪位置参数,以及右机械臂的6个关节位置、1个夹爪位置参数,可直接对接主流双机械臂系统的控制接口,大幅降低研究人员的数据适配成本;其二为观测数据,同时包含状态观测和图像观测两类信息,状态观测为与动作维度对应的14维浮点数向量,可实时同步双机械臂各关节与夹爪的实际运行位置,图像观测则覆盖右侧、左侧、顶部三个固定视角的RGB视频流,单帧分辨率为360×640,采用AV1编码压缩,兼顾画质与存储效率,可满足多视角视觉定位、动作识别等多类任务的训练需求;其三为元数据,包含时间戳、帧索引、片段索引、全局数据索引、任务索引五类信息,支持研究人员对任务序列进行精确定位与重建,便于开展单帧动作关联、序列动作预测等细分方向的研究。据介绍,该数据集采用Apache-2.0开源许可证,商业与非商业研究均可免费使用,仅需遵守相应的开源协议要求。
从应用价值来看,这类面向双机械臂精细化操作的OOD场景数据集,可广泛应用于多个领域的技术研发:一是家用服务机器人的物品整理、餐具收纳等场景的技能训练,助力提升机器人在非标准化家居环境下的操作准确率;二是工业制造场景下的零部件堆叠、柔性装配等任务的算法验证,降低工业机器人的产线适配成本;三是具身智能通用视觉-语言-动作模型(VLA)的泛化能力测试,为通用机器人跨场景迁移能力的优化提供标准化的验证基准。当前全球AI训练数据要素市场中,细分垂直场景的高质量标注数据是制约技术落地的核心瓶颈之一,本次开源数据集的发布进一步丰富了机器人操作领域的公开数据供给,对降低具身智能领域的研究门槛、推动视觉运动模仿学习技术的产业化落地具有积极意义。
查看eval_openvla_cup_stacking_ood





_1769672084863.jpg)