当前,通用机器人技术研发进入快速迭代期,双机械臂协同控制、操作模仿学习作为支撑机器人实现精密作业、复杂非结构化场景适配的核心技术,长期面临高质量标注训练数据供给不足的痛点,尤其是面向分布外(OOD)泛化场景的公开基准数据集稀缺,很大程度上制约了相关技术的落地效率与行业普及速度。作为全球领先的人工智能前沿研究机构,艾伦人工智能研究院(Allen Institute for AI)长期聚焦通用AI、机器人学习、多模态模型等方向的基础研究,本次推出的新数据集正是其面向机器人学习领域的最新公共供给成果。
本次发布的eval_cosmos_pipette_ood数据集基于Hugging Face面向机器人学习领域推出的LeRobot开源库创建,专注于机器人技术领域,特别适用于双机械臂系统的控制或模仿学习任务。数据集包含 20 个 episodes,总计 20595 帧,覆盖 2 个不同的移液操作相关任务。数据以 .parquet 格式存储结构化字段,总大小约 100 MB,同时提供多视角视频文件,总大小约 200 MB,帧率为 30 fps,所有数据均划分给训练集使用。数据集的核心特征包括:动作数据(14 维浮点数组,表示左右机械臂的 6 个关节位置和夹爪位置)、观测状态数据(14 维浮点数组,与动作结构相同,反映机器人关节实时状态)、以及来自右、左、顶三个视角的图像观测(视频格式,分辨率为 360x640,3 通道 RGB,使用 AV1 编解码)。此外,还包含时间戳、帧索引、episode 索引、索引和任务索引等元数据字段,用于跟踪数据时序和任务上下文。数据集标注的机器人类型为 bi_yam_follower,表明其数据采集场景涉及双机械臂跟随或协同作业任务,可广泛适配机器人策略学习、行为克隆、多模态感知等研究场景。
从应用价值来看,该数据集围绕精密移液(pipette)操作场景构建,且实现了视觉感知、关节状态、动作指令的全链路数据对齐,可支撑多类行业与研究场景的研发需求:在生命科学自动化领域,可用于训练双机械臂完成高精度试剂移取、样本分拣等重复性实验操作,降低人工操作的误差与生物安全风险;在高端制造领域,可为双机械臂协同完成精密电子装配、微小器件加工等任务的模仿学习提供训练基准;在通用机器人基础研究领域,其自带的OOD(分布外泛化)属性,可支持研发团队测试机器人策略在非预设场景下的适配能力,破解当前机器人学习模型普遍存在的分布偏移下性能骤降的行业共性问题。作为全球机器人学习领域为数不多的聚焦双机械臂精细操作的公开数据集,本次eval_cosmos_pipette_ood的发布,进一步丰富了全球机器人训练数据的公共供给体系,有助于降低中小研发团队的数据集构建成本,推动双机械臂控制技术的技术迭代与场景落地,也为数据要素支撑人工智能前沿领域研发提供了典型参考样本。





_1769672084863.jpg)