five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

具身智能训练数据供给再扩容:sweep_dataset_merged_group3多模态数据集首发HuggingFace 适配跟随机器人研发需求

五号数据雷达开源数据市场2026-05-07 23:509
开发者saipuneethgottam于2026年5月7日在HuggingFace平台首发由LeRobot打造的sweep_dataset_merged_group3多模态数据集,针对so101_follower型跟随机器人的视觉感知、行为控制训练场景设计,为具身智能细分领域研发提供高质量数据支撑。

随着具身智能产业进入商业化落地关键期,高质量、场景化的标注训练数据已成为制约机器人感知、决策算法迭代的核心要素。其中,跟随类服务机器人因需适配复杂家庭、公共场景的动态跟随需求,对多视角、多维度的匹配训练数据需求尤为迫切,而开源领域面向细分场景的结构化数据集供给长期存在缺口。

近日,开发者saipuneethgottam正式发布sweep_dataset_merged_group3数据集,该数据集由开源机器人项目LeRobot牵头打造,聚焦so101_follower型跟随机器人的技术研发需求,已于2026年5月7日率先在HuggingFace平台上线。据悉,该数据集共包含60段真实场景采集片段,累计覆盖41115帧结构化标注数据,核心数据维度涵盖三类:一是机器人的动作执行与指令反馈数据,二是机器人运行过程中的实时观察状态数据,三是部署于机器人正面、左侧、腕部三个不同位置的采集设备捕捉的环境图像数据。所有数据集采用parquet格式存储,同时配套带有完整技术标注的视频素材,可直接接入大模型训练流程,大幅降低研发团队的数据预处理成本。

从典型应用方向来看,该数据集可广泛用于机器人视觉感知、跟随行为控制两大核心领域的算法训练:在视觉感知方向,多视角同步的图像数据可支撑机器人的目标识别、动态障碍物规避、盲区环境感知等算法研发,解决传统单视角训练数据容易导致的目标丢失、识别准确率不足等问题;在跟随行为控制方向,同步标注的动作数据与状态数据可用于训练机器人的跟随距离动态调整、复杂路况下的运动策略优化、人机交互场景下的行为响应逻辑等,除适配so101_follower型机器人外,也可为家庭陪护机器人、仓储巡检机器人等同类具身智能产品的感知模块研发提供数据参考。

作为面向细分场景的多模态开源数据集,sweep_dataset_merged_group3的上线进一步丰富了具身智能领域的训练数据供给,也为全球机器人开源生态的协同研发提供了新的基础设施支撑,对于降低中小研发团队的训练数据获取成本、加速跟随类服务机器人的商业化落地进程具有积极意义。

查看sweep_dataset_merged_group3

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们