当前,全球人形机器人、工业协作机器人赛道进入爆发期,动作学习、多模态感知能力作为机器人实现自主作业的核心技术,其迭代高度依赖高标注质量、模态匹配的场景化训练数据集。而当前公开领域的机器人专用数据集普遍存在模态单一、缺乏触觉与视觉同步标注、适配硬件范围窄等痛点,成为制约中小团队技术研发的核心瓶颈之一。近日,数据贡献方jogarulfop正式发布机器人专用多模态数据集shakeitup4_20260506_114150,该数据集于2026年5月6日首发于全球知名AI资源共享平台HuggingFace,定向服务机器人动作学习、多模态感知两大核心研发场景。
jogarulfop本次发布的数据集由LeRobot创建,针对bi_openarm_follower型号机器人的作业场景设计,包含2个采集片段、596帧标注数据、1项作业任务,总数据大小为100MB,配套视频文件大小为200MB。数据维度覆盖机器人动作参数、环境观察状态、多视角采集图像(包含顶部全局视角、右腕视角、左腕视角)、触觉频谱图,同时配套时间戳、帧索引等标准化元数据,方便研发团队直接调用与二次处理。值得注意的是,该数据集采用商用友好的Apache 2.0许可证,支持使用者自由修改、分发与商用,目前暂未提供官方引用信息。
从数据覆盖的维度来看,该数据集具备多模态同步标注的独特优势,可支撑多个机器人研发方向的训练需求:其一,双腕视角+全局视角的图像数据搭配同步采集的触觉频谱图,可用于训练机器人的精细操作能力,典型应用场景包括工业小零部件装配、柔性物体抓取、服务场景下的人机交互操作等,帮助AI模型建立“视觉感知-触觉反馈-动作调整”的完整决策闭环;其二,动作参数与观察状态的一一标注,可用于机器人模仿学习算法的训练,大幅降低复杂作业动作的开发周期;其三,标准化的元数据结构也可支撑多模态感知模型的跨场景迁移验证,提升模型在非结构化环境下的适应性。
作为垂直领域的特色训练数据集,本次发布的shakeitup4系列数据集也为国内数据要素市场的垂直品类供给提供了补充。当前,AI训练数据作为数字经济核心生产要素,垂直领域的高标注数据集供给缺口持续扩大,这类开源开放的场景化数据集的上线,可有效降低中小机器人研发团队、AI初创企业的训练数据获取成本,对推动通用机器人技术的普惠化落地具备积极意义。





_1769672084863.jpg)