five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

HWAN7919发布put_banana_in_pot_merge专用数据集 为机器人操作学习、视觉伺服控制提供标准化训练支撑

五号数据雷达开源数据市场2026-05-11 23:3113
开发者HWAN7919于2026年5月11日在HuggingFace平台首发机器人学专用数据集put_banana_in_pot_merge,该数据集覆盖家务精细操作全流程多模态数据,可广泛应用于机器人强化学习、模仿学习、视觉伺服控制等领域的研发与测试。

当前全球服务机器人、通用人形机器人赛道正处于商业化落地的关键阶段,细粒度操作能力是机器人进入家庭、餐饮等民用场景的核心门槛,而多模态、标准化的专用训练数据集稀缺,始终是制约相关技术迭代的核心痛点之一。作为AI研发的核心生产要素,机器人领域的数据集采集需要同步获取机械关节状态、多视角视觉信息、时序动作标注等多维度数据,采集成本高、标注难度大,公开供给长期不足。近期,开发者HWAN7919正式推出面向特定操作场景的机器人学数据集put_banana_in_pot_merge,进一步丰富了机器人操作领域的开源数据供给。

该数据集专为机器人控制和学习任务设计,采用HuggingFace推出的机器人学习开源工具栈LeRobot创建,聚焦“将香蕉放入锅中”这一典型家务操作场景,核心目标是为训练、评估机器人在复杂环境下的精细操作能力提供标准化数据支撑。本次数据集采集自widowxai_follower_robot机器人,共包含100个完整的任务周期(episodes),总计44168帧数据,以30fps的帧率同步记录,完整覆盖了从拾取香蕉、空间移动到精准放入锅中的全流程操作细节。

该数据集的结构设计充分匹配机器人学习的研发需求,包含三大类核心特征:第一类是动作数据,覆盖7个关节的位置信息,涵盖joint_0.pos至joint_5.pos以及left_carriage_joint.pos的全量动作参数;第二类是观测状态数据,同步记录机器人执行动作时的7个关节实时位置,可用于动作执行偏差的对比训练;第三类是多视角视觉观测数据,来自腕部(wrist)、顶部2(top2)、顶部(top)三个位置的摄像头,均提供480x640分辨率的3通道RGB视频数据,可支撑视觉定位、伺服控制等相关研究。除此之外,数据集还附带时间戳、帧索引、episode索引等元数据,方便研究人员开展时序分析和任务划分。

从应用方向来看,该数据集可覆盖多个核心研发场景:其一,可用于机器人模仿学习训练,研究人员可基于全流程动作数据训练机器人复现不规则物体抓取、移动、放置的完整操作逻辑,优化非标准化物体的抓取姿态规划能力;其二,可支撑视觉伺服控制算法研发,同步的多视角视觉数据与关节状态数据,可用于训练机器人基于实时视觉反馈动态调整操作路径,降低复杂环境下的视觉定位误差,提升放置动作的精准度;其三,可作为强化学习算法的基准测试集,100个完整任务周期的标准化数据,可用于评估不同强化学习算法完成固定操作任务的成功率、执行效率等核心指标;其四,该数据集的研究成果还可迁移至同类家务操作场景,为蔬果处理、餐具摆放等其他服务机器人典型任务的模型训练提供参考。

存储层面,数据采用parquet文件格式分块存储,结构化数据文件总大小为100MB,配套视频文件大小为200MB,轻量化的存储设计降低了下载和使用门槛。数据集遵循Apache 2.0开源许可证,支持学术研究与商业化场景的免费使用,目前相关论文和主页信息暂未公布。

查看put_banana_in_pot_merge

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们