随着具身智能成为全球人工智能领域的核心赛道,机器人精细操作能力迭代、模仿学习算法落地,高度依赖标注完善、场景匹配的真实实操数据集,垂直领域训练数据供给已经成为制约具身AI从实验室走向产业场景的核心瓶颈之一。近日,数据贡献方tillwenke正式在全球最大的AI开源社区HuggingFace首发record-test_20260524_154012数据集,为机器人学研发提供了新的标准化基础数据资源。
据公开信息显示,该数据集由LeRobot创建,专门面向机器人学任务研发,完整覆盖机器人动作数据、环境观察数据两大核心维度。具体来看,数据集结构包含六大类动作特征:肩部平移、肩部提升、肘部弯曲、腕部弯曲、腕部旋转和夹爪位置;观察状态维度覆盖与动作特征完全匹配的对应参数,可满足算法训练过程中的动作-状态对齐需求;此外还包含第一视角前摄像头采集的视频数据,分辨率为480x640、3通道、帧率30fps,同步配套时间戳、帧索引、集索引、任务索引等标注信息,可支撑时序动作分析、场景溯源等研发需求。
该数据集目前包含1个集、1792帧有效数据、覆盖1类机器人操作任务,结构化数据以通用性极强的Parquet文件格式存储,视频数据采用MP4格式,适配绝大多数主流AI训练框架;对应机器人硬件为so_follower型机械臂,训练分割覆盖所有数据,无需额外拆分即可直接用于模型训练。资源体量方面,结构化数据文件总大小为100MB,视频文件总大小为200MB,采用Apache 2.0开源许可证,支持学术研究、商业开发等多场景合规使用。
从应用价值来看,该数据集可广泛适配多个机器人研发的典型场景:一是模仿学习算法训练,开发者可基于数据集中的标准化动作轨迹,快速训练机器人复现夹持、调整等精细操作动作,降低实机采集数据的时间与硬件成本;二是视觉-动作多模态具身模型研发,结合第一视角视频与同步动作参数,可训练机器人的场景感知-决策-执行全链路能力;三是机器人控制算法验证,研发团队可借助数据集的标准化动作参数,验证机械臂运动控制的精度与稳定性;四是低资源研发场景支持,Apache 2.0的开源许可允许中小团队、科研机构免费使用该数据集,降低具身智能领域的研发准入门槛。
作为具身智能垂直领域的细分数据集,本次record-test_20260524_154012的发布,进一步丰富了国内外科创团队在机器人精细操作领域的训练数据供给,对于完善AI训练数据要素市场的垂直品类布局、推动具身智能技术落地实操场景具有积极意义。





_1769672084863.jpg)