近年来,随着具身智能赛道进入高速发展期,机器人运动控制、视觉感知等核心技术的迭代需求持续攀升,而高质量、多维度、标注对齐的实机采集数据集,已成为制约中小研发团队技术落地的核心瓶颈之一。作为人工智能领域主流的开源数据集托管平台,HuggingFace也是全球机器人技术研发团队获取训练素材的核心渠道,垂直场景专用数据集的上架往往会受到研发端的广泛关注。
2026年5月10日,开源技术团队gaspardthrl正式在HuggingFace首发walleed_hg_double_fold专用数据集,该数据集由LeRobot创建,面向机器人技术研发场景定向优化,核心服务于机器人运动控制、视觉跟随两大核心任务的算法训练与验证。
据公开信息显示,本次发布的walleed_hg_double_fold数据集共包含21个episodes、24948帧有效数据,采用parquet结构化数据+视频文件双格式存储,总容量为300MB,其中结构化数据文件100MB,视频文件200MB。数据集覆盖多维度核心特征:动作数据、观察状态数据均包含6个关节位置参数,可直接支撑机器人运动学相关算法训练;前端摄像头图像数据采用480x640分辨率、30fps采样标准,与关节运动数据、时间戳、帧索引、episode索引实现了严格的时间对齐,无需研发团队额外进行数据清洗与标注匹配。该数据集针对so_follower类型机器人场景采集,适配性更强,可减少跨机型训练的精度损失问题。
从应用场景来看,该数据集可广泛覆盖机器人研发的多个核心方向:在运动控制领域,研发人员可基于关节状态数据训练机器人轨迹规划、柔顺控制算法,验证多关节协同的精度与稳定性,降低实机测试的耗材成本与安全风险;在视觉跟随领域,对齐后的视觉图像与关节数据可支撑多模态感知融合算法研发,优化工业机械臂示教复刻、服务机器人用户跟随、巡检机器人动态目标追踪等场景的性能表现;在高校及科研机构的基础研究场景中,该数据集也可作为标准测试集,用于验证机器人运动学建模、多模态感知框架的有效性。
业内分析指出,垂直场景高质量数据集的开放共享,是数据要素赋能AI产业创新的典型路径。本次walleed_hg_double_fold数据集的发布,填补了so_follower类型机器人相关训练数据的供给缺口,能够有效降低中小研发团队的准入门槛,加速机器人相关技术从实验室向落地场景的转化效率,为具身智能产业的生态化发展提供基础支撑。





_1769672084863.jpg)