近年随着具身智能赛道的快速爆发,机器人模仿学习、遥操作技术成为工业自动化、服务机器人、特种作业机器人等领域的核心研发方向,而覆盖真实操作场景、多维度同步采集的高质量数据集,是支撑相关算法迭代、技术落地的核心基础资源。此前机器人学习领域普遍存在公开数据集场景覆盖窄、模态不同步、适配门槛高等痛点,中小研发团队往往需要投入大量成本完成数据采集和预处理工作,拉高了技术创新的准入门槛。
近日,开发者alicheraghi正式发布LeRobot V2机器人学数据集,该数据集率先在HuggingFace平台上线,主打遥操作任务场景适配,且原生支持ROS2开发环境,为全球机器人领域研发人员提供了新的标准化训练数据选择。
本次发布的LeRobot V2数据集基于LeRobot框架构建,共包含101个操作序列(episodes),累计采集35990帧同步数据,整体采用parquet格式存储,全部数据均可作为训练集使用。数据维度覆盖多模态感知与机器人核心状态两大类别:其中视觉数据包含顶部、腕部、正面三个视角的同步视频流,分辨率为480x640,采样帧率30fps,完整还原操作场景的全局环境、末端执行器状态与操作对象细节;机器人状态数据则覆盖6维关节位置、速度、力矩全量参数,同时配套时间戳、帧索引、序列索引等标准化元数据,方便研发人员快速对齐多源数据。数据集整体大小约300MB,其中结构化数据文件占100MB,视频文件占200MB,轻量化的存储设计也降低了下载、调试的硬件门槛。
从应用方向来看,该数据集可广泛适配多个机器人研发场景:在遥操作领域,研发人员可基于多视角视觉与关节力矩的同步数据,优化远程操控的力反馈精度、降低操作延迟,满足工业排险、精密装配、深空深海探测等高危、高精度场景的遥操作需求;在模仿学习领域,该数据集的标准化操作序列可直接用于机器人示教学习算法的训练,支撑工业机器人的快速任务适配、服务机器人的日常动作复刻等研发需求,原生适配ROS2环境的特性也可帮助研发团队快速完成算法到实体机器人的部署验证,大幅缩短研发周期。
作为数据要素在具身智能领域的典型落地载体,本次LeRobot V2数据集的开放,进一步丰富了全球机器人领域的开源数据资源池,为中小研发团队、学术机构降低了机器人学习领域的数据采集门槛,也为不同算法的横向对比提供了统一的基准数据集,对推动机器人遥操作、模仿学习技术的产业化落地具有积极作用。





_1769672084863.jpg)