当前具身智能赛道正处于技术迭代的关键期,机器人自主决策、精细化动作执行能力的升级,高度依赖大规模实机采集、标注完善的多模态训练数据。而长期以来,适配主流训练框架、覆盖多元应用场景的机器人专属训练数据供给不足,是制约行业研发效率的核心痛点之一。
近日,科技厂商Wayl正式对外发布编号为20260509_121651_sc_04_train的专用训练数据集,该数据集于2026年5月9日率先在全球知名AI开源社区HuggingFace上线,定向服务机器人行为学习、视觉动作控制两大核心研发场景。
据公开技术文档显示,该数据集基于HuggingFace开源的LeRobot机器人学习框架创建,依托LeRobot标准化的数据采集工具链生成的数据集,具备更强的跨框架适配性,可直接对接主流的具身智能算法训练流程,大幅降低研发团队的数据预处理成本。数据集结构包含动作参数、状态观察数据(含机器人自身运行状态与多机位摄像头采集的实时环境图像)、对应时间戳与索引等多维度特征,数据采用高压缩比、高读取效率的parquet格式存储,同时配套原始视频文件,便于研究人员开展二次标注、算法效果验证等工作。此外,数据集配套的元数据还明确标注了采集所用的机器人类型、总剧集数、总帧数、覆盖任务类型等核心技术参数,研发人员可根据自身研发需求灵活筛选对应数据子集。
从应用价值来看,这类标准化的多模态机器人训练数据,可广泛应用于多个研发场景:既可以支撑人形机器人抓取、移动、人机交互等精细化行为的模型训练,也能为工业协作机器人的视觉引导分拣、服务机器人的动态环境避障、特种机器人的自主作业决策等技术研发提供数据支撑,有效减少研发团队的实机测试投入,加快算法落地速度。本次数据集的发布,也进一步丰富了机器人领域的公共训练数据供给,为数据要素在具身智能赛道的价值释放提供了典型样本。





_1769672084863.jpg)