随着具身智能产业进入快速发展期,机器人模仿学习、强化学习技术成为支撑机械臂、人形机器人实现复杂操作任务的核心技术路径,而具备真实场景标注、多模态特征对齐能力的高质量公开数据集,一直是制约相关算法迭代、模型落地的核心瓶颈之一。近日,机器人学习领域研究团队robot-learning-group47正式对外发布专用数据集eval_fixed_all_4k_blue_r1,该数据集首发于全球最大的AI模型与数据集共享平台HuggingFace,面向全球研究人员和产业团队开放使用。
据了解,该数据集基于LeRobot平台创建,是专门面向机器人模仿学习、强化学习任务优化的垂类数据集。数据集收录了机器人完成单次完整操作任务的全流程episode,累计包含479帧同步采集的多模态数据,采集帧率为30fps,可完整还原操作过程中的动作与状态变化时序关系。具体来看,数据集的特征维度覆盖三大类:第一类是6维关节位置动作数据,包含肩部平移、肩部升降、肘部弯曲、腕部弯曲、腕部旋转、夹爪位置全链路操作指令;第二类是6维关节位置状态观测数据,可对应动作指令同步反馈机器人的实时运行状态;第三类是来自前置摄像头camera1的480x640分辨率RGB图像观测数据,可支撑视觉与动作特征的对齐训练。除此之外,数据集还配套了时间戳、帧索引、episode索引等标准化元数据,方便研究人员按需调用、拆分数据。本次采集所使用的机器人型号为so_follower,结构化数据采用业界通用的Parquet格式存储,视觉内容以MP4格式封装,适配绝大多数主流深度学习框架的训练需求。
从应用场景来看,该数据集可广泛支撑机器人学习领域的多类研究与落地需求:一方面可用于模仿学习场景下的操作策略训练,帮助模型快速学习机械臂的标准化精细动作,降低实体机器人实操训练的成本与安全风险;另一方面也可作为强化学习场景的验证基准,用于测试不同算法在操作任务中的决策准确率、动作流畅度等核心指标,为跨模型的效果对比提供统一的测试标尺。当前国内数据要素市场正加快向垂类场景延伸,具身智能作为数字经济与实体经济融合的核心赛道,专用训练数据的供给能力直接决定产业的发展速度。本次eval_fixed_all_4k_blue_r1数据集的发布,进一步丰富了国内机器人学习领域的公开数据供给,为相关研究团队和企业降低了数据获取门槛,对推动机器人操作算法迭代、加快具身智能技术落地具有积极意义。





_1769672084863.jpg)