当前具身智能产业正处于快速落地的关键期,机器人自主跟随、人机协同等核心能力的迭代,高度依赖高质量垂直场景训练数据支撑。作为机器人基础交互功能的重要分支,跟随行为覆盖家用服务、工业巡检、公共导览等多个落地场景,但长期以来,行业内公开的专用跟随场景数据集供给不足、标准化程度偏低,成为制约中小研发团队算法迭代效率的核心瓶颈之一。
针对这一行业痛点,科技创作者jjr1007于2026年5月9日在全球知名AI开源社区HuggingFace正式首发may7_merged_trimmed_part2专用数据集,定向服务于机器人跟随行为识别、机器人行为学习两大研发方向,为行业提供标准化的开源训练数据源。
据介绍,本次发布的数据集基于具身智能开发工具LeRobot构建,采集对象为so_follower型跟随机器人,核心参数覆盖行业主流训练需求:采样帧率为30fps,共包含85个完整场景采集片段,总帧数达74875帧,其中结构化标注数据文件大小为100MB,配套原始采集视频文件大小为200MB。数据集采用Apache 2.0开源许可证,支持开发者免费使用、修改及二次分发,同时允许商业场景下的二次开发,大幅降低了不同研发主体的数据获取门槛。
从应用价值来看,该数据集可广泛支撑多场景具身智能研发需求:在家用服务机器人领域,可用于优化复杂家居环境下的人员跟随、避障随行算法,提升跟随准确率与场景适配性;在工业制造场景,可支撑巡检AGV、物料转运机器人的人员跟随调度算法训练,强化工业人机协同的安全性与效率;在公共服务场景,可用于陪护机器人、展馆导览机器人的跟随行为优化,降低复杂人流场景下的跟丢、碰撞风险;此外,数据集还可服务于通用机器人行为模仿学习、人机交互策略迭代等前沿研究方向。
作为具身智能领域的垂直专用数据资源,本次数据集的发布也契合当前数据要素市场向细分场景下沉的发展趋势,开源许可的设置进一步放大了数据的公共价值,对降低具身智能产业研发成本、加快细分场景落地进程具有积极意义。





_1769672084863.jpg)