当前具身智能已成为全球人工智能产业落地的核心赛道之一,机器人控制与视觉感知的跨模态对齐训练是决定具身机器人落地能力的核心技术环节,而高质量、多维度时间对齐的训练数据集,正是支撑相关技术迭代的核心基础。近日,开发者sachinkhd1234正式发布面向机器人技术领域的多模态数据集record-test-final2,该数据集于2026年4月22日首发于全球最大的AI开源模型与数据集社区HuggingFace,可广泛应用于机器人控制、机器视觉两大核心领域的研发工作。
据介绍,record-test-final2数据集基于LeRobot框架创建,共包含5组完整的机器人动作序列(episodes),覆盖8980帧同步采集的多维度数据,既包含30fps、480x640分辨率的3通道彩色第一视角视频数据,也同步存储了机器人运行过程中的实时状态与动作控制浮点数据,具体涵盖6个核心关节的位置状态(分别为shoulder_pan.pos、shoulder_lift.pos、elbow_flex.pos、wrist_flex.pos、wrist_roll.pos、gripper.pos)及对应的6组动作控制量,所有结构化数据采用parquet格式存储,视频数据采用通用mp4格式存储,可兼容绝大多数主流AI训练框架,大幅降低开发者的数据预处理成本。
从应用价值来看,该数据集实现了机器人动作状态、控制指令与视觉画面的精准时间对齐,典型应用方向覆盖多个垂直场景:在机器人控制方向,可用于机械臂轨迹规划算法训练、抓取动作精度优化、关节力控模型调试等研发场景;在机器视觉方向,可支撑具身视角语义识别、动态目标跟踪、场景三维重建等模型的训练优化;同时该数据集也可用于具身大模型的跨模态对齐训练,帮助大模型建立视觉输入到机器人动作输出的映射关系,为具身智能技术的落地提供基础数据支撑。
作为垂直领域的细分训练数据集,record-test-final2的发布也将进一步丰富机器人领域的开源数据供给,降低中小研发团队在相关方向的研发门槛,推动具身智能技术的迭代与产业化落地。





_1769672084863.jpg)