作为当前人工智能领域的核心赛道,具身智能的技术落地高度依赖真实场景下的高质量多模态训练数据,尤其是分布外(OOD)场景的操作数据,长期是限制机器人策略泛化能力的核心瓶颈。其中机器人模仿学习作为降低通用机器人训练门槛的核心技术路径,更是对细分场景的动作-感知对齐数据有极高要求。近日艾伦人工智能研究所(Allen Institute for AI,简称AI2)发布的eval_xvla_candy_sorting_ood数据集,正是瞄准这一行业需求推出的开源数据资产。
该数据集是使用LeRobot平台创建的机器人学专项数据集,采用Apache 2.0开源许可证,科研机构、商业团队均可在合规范围内自由使用、修改与分发。数据集采集自bi_yam_follower型双臂机器人执行糖果分拣任务的全流程操作数据,覆盖4类不同的分拣任务场景,共收录23个完整任务序列(episodes),合计16014帧有效标注数据,所有数据均可直接用于模型训练。存储设计上,数据集采用分块存储结构,每块包含1000个数据点,数据集文件总大小约为100MB,关联的30fps帧率视频文件总大小约为200MB,存储与调用门槛较低,适合中小规模研究团队快速开展相关验证实验。
本次发布的数据集提供了多维度的标注特征,可覆盖不同研究方向的需求:包含14维浮点数格式的机器人动作指令,对应左右臂各6个关节和1个夹爪的位置信息,可直接用于机器人动作序列的学习训练;同步采集的14维浮点数格式机器人状态观测数据,与动作指令结构完全对齐,可用于动作执行偏差校准、策略鲁棒性验证等研究;视觉维度覆盖右、左、顶部三个固定视角的图像观测,均为360×640分辨率的RGB视频,采用AV1编解码器在保障画质的同时降低存储占用,可支撑多视角视觉语义理解、视觉-动作对齐等方向的研究;除此之外,数据集还配套了时间戳、帧索引、episode索引、全局索引和任务索引等完整元数据,方便研究人员按需筛选数据子集,开展细分场景的定向实验。
从应用价值来看,该数据集瞄准OOD场景下的精细分拣任务,可支撑多类具身智能研究方向:既可以用于机器人模仿学习、行为克隆、策略学习的模型训练,验证机器人在非标准化分拣场景下的策略泛化能力;也可以用于双臂协同操作的策略优化,探索复杂操作任务下的多臂动作调度逻辑;还可以用于多模态感知系统的性能测试,验证多视角视觉数据与机器人状态数据的融合感知效果。当前全球具身智能领域的高质量真实操作数据属于稀缺核心数据要素,本次AI2发布的开源数据集进一步丰富了机器人操作领域的开源数据供给,对于降低中小研究团队的研发门槛,推动机器人精细操作相关技术的落地应用具有积极意义。





_1769672084863.jpg)