近年来,具身智能与商用机器人赛道进入高速发展期,运动控制精度、环境感知准确率作为机器人核心性能指标,其技术迭代高度依赖高标注质量、场景覆盖完善的专用数据集支撑,但目前全球范围内面向机器人垂直领域的公开高质量数据集供给相对有限,成为制约中小研发团队技术落地的核心瓶颈之一。
2026年5月9日,jjr1007正式对外发布由LeRobot创建的机器人专用数据集may7_merged_trimmed,该数据集首发上线于全球知名AI开源社区HuggingFace,主要面向机器人运动控制、视觉感知两大核心研发场景提供数据支撑。
据公开信息显示,该数据集共包含100个完整任务流程的episodes,累计83571帧有效数据,其中结构化数据文件大小为100MB,配套视频文件大小为200MB,兼顾了数据丰富度与下载使用的便捷性。从数据结构来看,该数据集的标注维度覆盖机器人全链路运行特征:既包含shoulder_pan.pos、shoulder_lift.pos等核心关节动作参数,也同步收录了与动作参数对应的机器人观察状态数据,同时配套1080x1920分辨率、30fps的前端视觉采集图像,搭配时间戳、帧索引、episode索引等关联字段,可实现动作参数、感知数据、视觉图像的精准时间对齐。存储方面,结构化数据采用适合大数据分析与模型训练的parquet格式存储,视频数据采用通用mp4格式,大幅降低了研发团队的数据预处理成本。
从潜在应用场景来看,该数据集可广泛覆盖多个机器人研发方向:工业机械臂研发团队可基于标注的关节动作数据训练轨迹规划模型,提升机械臂分拣、装配等作业场景的精度与稳定性;服务机器人研发团队可结合视觉图像与对应动作数据,迭代室内避障、动态环境识别、人机交互相关的视觉感知算法;此外,该数据集的多模态时序对齐特征还可支撑机器人多模态感知融合模型的训练与验证,助力提升机器人复杂场景下的自主决策能力。
作为面向机器人垂直领域的优质公开数据集,may7_merged_trimmed的上线一方面填补了部分机器人细分训练场景的公开数据供给缺口,降低了中小研发团队的数据采集与标注成本,缩短技术迭代周期;另一方面也为数据要素在人工智能垂直赛道的落地应用提供了参考样本,进一步完善具身智能产业的基础设施建设。





_1769672084863.jpg)