随着具身智能产业进入快速落地期,实机操作场景下的高质量标注数据集,已成为制约机器人学习算法迭代、中小研发团队降低研发门槛的核心公共资源之一。尤其是针对UR系列通用工业机器人的标准化操作数据集,因采集成本高、标定流程复杂,长期以来存在公开供给不足的痛点,KKLabUR3eLeRobot本次发布的专项数据集正是瞄准这一行业需求推出。
本次公开的ur3e_lerobot_dataset_merged_20260522_20260524_all数据集基于LeRobot框架创建,专门面向机器人学研究与强化学习任务开发,共包含261个完整操作序列(episodes)、69719帧有效数据,全部数据采用10fps的帧率采集,在数据密度和采集精度上兼顾了算法训练的效率需求与精度要求。
从数据构成来看,本次发布的数据集覆盖三类核心特征维度:一是12维浮点数组格式的观察状态数据,完整涵盖机器人肩部、肘部、腕部关节角度以及末端执行器的位置、旋转参数,可直接用于机器人运动学模型的训练与校准;二是7维浮点数组格式的动作控制数据,包含线速度、角速度和夹爪控制指令,与实际工业场景下的机器人控制逻辑完全对齐;三是来自前视、侧视、腕部三个视角的同步视频数据,每路视频分辨率为480x640、3通道彩色、采用H.264编码,多视角的视觉数据可支撑具身视觉算法、多模态融合控制算法的研发需求。
本次数据集采用Parquet格式存储,兼具高压缩率与结构化查询能力,可直接接入主流AI训练pipeline,同时配套完整的时间戳、帧索引、episode索引等元数据,方便研究人员根据自身研发需求完成数据筛选与预处理。目前该数据集仅开放训练分割版本,适用于机器人控制算法的开发、验证与效果评估。
从行业应用来看,该类数据集可广泛应用于多个机器人研发场景:在模仿学习领域,研发团队可基于该数据集训练机器人复现抓取、搬运、精密组装等各类工业操作任务,无需从零搭建实机采集环境,大幅降低研发前期的硬件成本;在强化学习领域,研究人员可基于该数据集完成模型预训练后再开展实机微调,有效提升训练效率,减少实机调试过程中的硬件损耗;在具身大模型研发领域,同步的视觉数据与运动控制数据,可用于训练多模态具身模型的感知-决策闭环能力。本次公开数据集的上线,也将进一步丰富工业机器人领域的公开数据供给,推动相关技术的开源协作与落地迭代。
查看ur3e_lerobot_dataset_merged_20260522_20260524_all





_1769672084863.jpg)