首页 / 开源数据市场 / 正文

艾伦人工智能研究所发布堆杯场景OOD多模态机器人数据集助力操作学习与多模态控制研究

五号数据雷达开源数据市场2026-05-21 19:476

美国艾伦人工智能研究所（Allen Institute for AI）于2026年5月20日在Hugging Face平台首发eval_xvla_cup_stacking_ood机器人演示数据集，该数据集基于真实双臂机器人采集的多模态对齐数据构建，可为机器人模仿学习、离线强化学习、多模态感知控制等领域的研究提供标准化数据支撑。

当前，通用机器人研发正处于高速发展期，双臂协同精细操作、多模态端到端控制是行业核心攻坚方向，但真实场景下的感知-动作对齐训练数据、尤其是Out-of-Distribution（离群分布，即OOD）场景的测试数据供给缺口显著，已成为制约相关技术迭代的重要瓶颈。作为全球顶尖的非营利性人工智能研究机构，艾伦人工智能研究所（Allen Institute for AI，以下简称AI2）长期聚焦通用AI技术的开源公共资源建设，其发布的各类公开数据集已被全球研究团队广泛采用。

近日，AI2正式发布全新机器人演示数据集eval_xvla_cup_stacking_ood，该数据集于2026年5月20日首发于Hugging Face平台，专门面向机器人操作技能学习、多模态机器人控制领域的研究需求打造。

据公开信息显示，该数据集基于行业通用的LeRobot开源机器人框架创建，核心数据全部来源于名为“bi_yam_follower”的真实双臂机器人平台的操作演示，避免了合成数据与真实场景的偏差问题。数据集以任务序列（episodes）和单帧（frames）的形式组织，共包含25个完整任务序列、总计16096帧有效数据，覆盖3类不同的堆杯操作任务，采用Parquet结构化文件+MP4视频的格式存储，兼顾了数据读取效率与可视化验证需求。

该数据集的核心优势在于多模态数据的高精度对齐：每个样本的动作空间由14个浮点数组成，分别对应左右机械臂的6个关节位置参数与1个夹爪位置参数；观测空间不仅包含与动作空间完全对齐的14维机器人本体状态数据，还同步采集了右、左、顶三个固定视角的RGB视频流，视频分辨率为640x360、帧率达30FPS，可完整还原操作过程中的全视角环境信息。此外，数据集还配套了时间戳、帧索引、任务序列索引、任务类型索引等完整元数据，无需额外标注即可直接用于模型训练与测试。

从应用场景来看，该数据集可广泛支撑多个机器人研究方向的技术研发：一是可用于机器人模仿学习、行为克隆算法的效果验证，尤其是堆杯这类对空间定位、力控精度、双臂协同要求较高的任务，可测试模型在OOD场景下的操作泛化能力；二是可作为离线强化学习的训练数据源，研究者无需搭建昂贵的真实机器人硬件环境，即可完成初步的控制策略训练，大幅降低研发门槛；三是可为多模态感知与控制策略的研发提供基准数据，基于视觉、本体状态的多源对齐数据，可训练端到端的多模态机器人控制模型，适配复杂动态的真实作业场景。除了学术研究之外，该数据集的技术框架也可迁移到工业双臂机器人分拣装配、家用服务机器人物品整理等商用场景的模型预训练环节。

从行业价值来看，当前垂直领域的高质量训练数据已成为AI技术迭代的核心生产要素，机器人领域的真实场景多模态数据更是属于高价值稀缺资源。AI2本次开源该数据集，进一步完善了全球机器人研究领域的公共数据供给体系，有助于推动双臂机器人精细操作、多模态控制等技术的落地迭代，加速通用机器人技术的普惠发展。

查看eval_xvla_cup_stacking_ood

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

艾伦人工智能研究所发布堆杯场景OOD多模态机器人数据集 助力操作学习与多模态控制研究

Dataset card内容：

Files and versions内容：

社区讨论

艾伦人工智能研究所发布堆杯场景OOD多模态机器人数据集助力操作学习与多模态控制研究