首页 / 开源数据市场 / 正文

Allen Institute for AI发布eval_xvla_test_tube_ood OOD专用数据集赋能机器人模仿学习与视觉运动控制研发

五号数据雷达开源数据市场2026-05-21 19:538

全球顶尖AI研究机构Allen Institute for AI于2026年5月20日在HuggingFace首发专用机器人演示数据集eval_xvla_test_tube_ood，该数据集覆盖双机器人系统多模态交互标注数据，可广泛应用于具身智能领域的机器人模仿学习、视觉运动策略训练等研究场景，填补了分布外（OOD）场景机器人训练数据的供给缺口。

当前具身智能与通用机器人技术正处于商业化落地关键期，高质量、多场景的标注演示数据是制约机器人控制模型泛化能力提升的核心瓶颈，尤其是适配真实复杂环境的分布外（OOD）场景训练数据供给长期不足。作为全球知名的非营利AI研究机构，Allen Institute for AI（艾伦人工智能研究院）长期聚焦AI基础技术与开源工具研发，此前推出的AllenNLP等开源项目已成为NLP领域的主流研究工具，此次其面向机器人技术研究领域推出的专用数据集，再次为行业带来了稀缺的基础研究资源。

Allen Institute for AI本次发布的数据集eval_xvla_test_tube_ood是一个专业机器人任务演示数据集，使用机器人研究领域主流的LeRobot工具创建，所有数据来自名为“bi_yam_follower”的双机器人系统的实操演示，专门面向机器人技术研究场景设计。数据集规模包含24个完整的演示片段（episodes），共计15020个数据帧（frames），覆盖了3个不同的操作任务；所有数据仅划分为训练集（train split），以分块形式存储，每块包含1000帧，便于研究人员按需加载调用。数据集本身总大小约为100MB，关联的视频文件总大小约为200MB，视频帧率为30 FPS，可满足时序控制类模型的训练精度要求。

该数据集的核心内容是多模态的机器人交互数据，具体包含以下字段，各字段均匹配机器人研发的实际需求：1) `action`：机器人的动作指令，是一个14维的浮点向量，分别对应左、右机械臂的6个关节位置和1个夹爪位置，是机器人模仿学习任务中核心的监督标签，可直接用于对齐机器人动作输出标准。2) `observation.state`：机器人的状态观测，也是一个14维的浮点向量，内容与`action`字段相同，表示当前时刻的关节与夹爪位置，可用于训练机器人闭环控制模型，实现动作执行过程中的实时状态校准。3) `observation.images`：来自三个固定视角（右、左、顶）的视觉观测，每个视角的视频分辨率为640x360，3通道彩色，采用AV1编码，多视角的视觉数据可支撑多模态感知模型训练，避免单视角观测带来的环境信息遗漏问题。4) 元数据字段：包括`timestamp`（时间戳）、`frame_index`（帧索引）、`episode_index`（片段索引）、`index`（数据索引）和`task_index`（任务索引），可帮助研究人员快速完成时序对齐、任务拆分等数据预处理工作，降低数据使用门槛。

从应用场景来看，该数据集除了可支撑机器人模仿学习、视觉运动策略学习、多模态感知与控制等基础研究任务外，还可广泛应用于工业协作机器人分拣装配、家用服务机器人物品抓取、特种机器人复杂环境作业等场景的模型训练与泛化能力测试，尤其是其OOD场景设计属性，可帮助研究人员验证机器人模型在非实验室标准环境下的适配能力，解决当前不少机器人模型“实验室表现优异、真实场景落地失效”的普遍痛点。此次Allen Institute for AI开源该数据集，一方面降低了中小研究团队、机器人初创企业的研发数据获取成本，推动具身智能控制技术的普惠研发；另一方面也为行业内机器人演示数据集的标准化制作、标注规范建立提供了参考范式，对完善具身智能领域数据要素供给体系、加速机器人技术落地迭代具有重要意义。

查看eval_xvla_test_tube_ood

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

Allen Institute for AI发布eval_xvla_test_tube_ood OOD专用数据集 赋能机器人模仿学习与视觉运动控制研发

Dataset card内容：

Files and versions内容：

社区讨论

Allen Institute for AI发布eval_xvla_test_tube_ood OOD专用数据集赋能机器人模仿学习与视觉运动控制研发