当前,通用机器人研发正处于高速发展期,双臂协同精细操作、多模态端到端控制是行业核心攻坚方向,但真实场景下的感知-动作对齐训练数据、尤其是Out-of-Distribution(离群分布,即OOD)场景的测试数据供给缺口显著,已成为制约相关技术迭代的重要瓶颈。作为全球顶尖的非营利性人工智能研究机构,艾伦人工智能研究所(Allen Institute for AI,以下简称AI2)长期聚焦通用AI技术的开源公共资源建设,其发布的各类公开数据集已被全球研究团队广泛采用。
近日,AI2正式发布全新机器人演示数据集eval_xvla_cup_stacking_ood,该数据集于2026年5月20日首发于Hugging Face平台,专门面向机器人操作技能学习、多模态机器人控制领域的研究需求打造。
据公开信息显示,该数据集基于行业通用的LeRobot开源机器人框架创建,核心数据全部来源于名为“bi_yam_follower”的真实双臂机器人平台的操作演示,避免了合成数据与真实场景的偏差问题。数据集以任务序列(episodes)和单帧(frames)的形式组织,共包含25个完整任务序列、总计16096帧有效数据,覆盖3类不同的堆杯操作任务,采用Parquet结构化文件+MP4视频的格式存储,兼顾了数据读取效率与可视化验证需求。
该数据集的核心优势在于多模态数据的高精度对齐:每个样本的动作空间由14个浮点数组成,分别对应左右机械臂的6个关节位置参数与1个夹爪位置参数;观测空间不仅包含与动作空间完全对齐的14维机器人本体状态数据,还同步采集了右、左、顶三个固定视角的RGB视频流,视频分辨率为640x360、帧率达30FPS,可完整还原操作过程中的全视角环境信息。此外,数据集还配套了时间戳、帧索引、任务序列索引、任务类型索引等完整元数据,无需额外标注即可直接用于模型训练与测试。
从应用场景来看,该数据集可广泛支撑多个机器人研究方向的技术研发:一是可用于机器人模仿学习、行为克隆算法的效果验证,尤其是堆杯这类对空间定位、力控精度、双臂协同要求较高的任务,可测试模型在OOD场景下的操作泛化能力;二是可作为离线强化学习的训练数据源,研究者无需搭建昂贵的真实机器人硬件环境,即可完成初步的控制策略训练,大幅降低研发门槛;三是可为多模态感知与控制策略的研发提供基准数据,基于视觉、本体状态的多源对齐数据,可训练端到端的多模态机器人控制模型,适配复杂动态的真实作业场景。除了学术研究之外,该数据集的技术框架也可迁移到工业双臂机器人分拣装配、家用服务机器人物品整理等商用场景的模型预训练环节。
从行业价值来看,当前垂直领域的高质量训练数据已成为AI技术迭代的核心生产要素,机器人领域的真实场景多模态数据更是属于高价值稀缺资源。AI2本次开源该数据集,进一步完善了全球机器人研究领域的公共数据供给体系,有助于推动双臂机器人精细操作、多模态控制等技术的落地迭代,加速通用机器人技术的普惠发展。





_1769672084863.jpg)