five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Wayl发布LeRobot打造机器人专项训练数据集 开源赋能多模态感知与视觉控制研发

五号数据雷达开源数据市场2026-05-09 23:3213
科技企业Wayl于2026年5月9日在HuggingFace首发20260509_114150_sc_05_train数据集,该数据集覆盖机器人训练全链路核心特征,采用Apache-2.0许可开放,可为具身智能领域研发提供标准化数据支撑。

当前具身智能、服务机器人赛道正处于技术落地的关键期,高质量实采训练数据不足已成为制约行业发展的核心痛点:大量基于仿真数据训练的算法模型在真实场景下泛化能力不足,而自行采集标注多模态感知数据的成本高、周期长,中小研发团队普遍面临数据资源短缺的难题,行业对标准化、开源开放的专项训练数据集需求迫切。

近日,科技企业Wayl正式上线由全球知名机器人开源项目LeRobot打造的20260509_114150_sc_05_train数据集,该数据集于2026年5月9日首发于全球最大的开源AI社区HuggingFace,主要面向机器人视觉控制、多模态感知领域的研发需求开放使用。

作为面向机器人专项训练的轻量化数据集,本次发布的产品参数匹配端侧算法快速迭代需求:共包含7个任务序列(episodes)、5492帧采样数据,整体数据文件大小为100MB,配套视频文件大小为1MB,采样帧率为30fps,可大幅降低训练时的算力消耗,适合轻量模型快速调优。

从数据维度来看,该数据集覆盖了机器人训练所需的全链路核心特征:包括7维动作控制数据、26维环境与自身观察状态数据、三个不同视角摄像头采集的256x288分辨率RGB图像,同时配套了时间戳、帧索引、episode索引等标准化标识,方便研发人员快速对齐多模态数据、降低数据预处理成本。其中多视角图像数据可模拟机器人在真实场景下的环境感知逻辑,动作与状态数据则实现了感知输入到控制输出的全链路映射,能够有效填补仿真数据与真实场景数据之间的分布差距,提升模型落地的适配性。

据公开信息显示,该数据集采用Apache-2.0开源许可,商业与非商业研发主体均可免费使用,可为多个机器人研发场景提供数据支撑:包括家用服务机器人的自主导航、物体抓取算法训练,工业机械臂的视觉引导控制模型迭代,多模态人机交互系统的感知能力测试,以及机器人端侧轻量感知算法的性能验证等。

当前我国正加快推动数据要素市场化建设,人工智能领域的开源数据集作为重要的公共技术支撑资源,对降低行业研发门槛、加速技术落地具有重要作用。本次专项数据集的开放,也将为国内具身智能、服务机器人等赛道的研发提供更多优质数据选择,推动多模态感知、机器人视觉控制等核心技术的普惠化发展。

查看20260509_114150_sc_05_train

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们