首页 / 开源数据市场 / 正文

HWAN7919发布put_banana_in_pot_merge专用数据集为机器人操作学习、视觉伺服控制提供标准化训练支撑

五号数据雷达开源数据市场2026-05-11 23:3113

开发者HWAN7919于2026年5月11日在HuggingFace平台首发机器人学专用数据集put_banana_in_pot_merge，该数据集覆盖家务精细操作全流程多模态数据，可广泛应用于机器人强化学习、模仿学习、视觉伺服控制等领域的研发与测试。

当前全球服务机器人、通用人形机器人赛道正处于商业化落地的关键阶段，细粒度操作能力是机器人进入家庭、餐饮等民用场景的核心门槛，而多模态、标准化的专用训练数据集稀缺，始终是制约相关技术迭代的核心痛点之一。作为AI研发的核心生产要素，机器人领域的数据集采集需要同步获取机械关节状态、多视角视觉信息、时序动作标注等多维度数据，采集成本高、标注难度大，公开供给长期不足。近期，开发者HWAN7919正式推出面向特定操作场景的机器人学数据集put_banana_in_pot_merge，进一步丰富了机器人操作领域的开源数据供给。

该数据集专为机器人控制和学习任务设计，采用HuggingFace推出的机器人学习开源工具栈LeRobot创建，聚焦“将香蕉放入锅中”这一典型家务操作场景，核心目标是为训练、评估机器人在复杂环境下的精细操作能力提供标准化数据支撑。本次数据集采集自widowxai_follower_robot机器人，共包含100个完整的任务周期（episodes），总计44168帧数据，以30fps的帧率同步记录，完整覆盖了从拾取香蕉、空间移动到精准放入锅中的全流程操作细节。

该数据集的结构设计充分匹配机器人学习的研发需求，包含三大类核心特征：第一类是动作数据，覆盖7个关节的位置信息，涵盖joint_0.pos至joint_5.pos以及left_carriage_joint.pos的全量动作参数；第二类是观测状态数据，同步记录机器人执行动作时的7个关节实时位置，可用于动作执行偏差的对比训练；第三类是多视角视觉观测数据，来自腕部（wrist）、顶部2（top2）、顶部（top）三个位置的摄像头，均提供480x640分辨率的3通道RGB视频数据，可支撑视觉定位、伺服控制等相关研究。除此之外，数据集还附带时间戳、帧索引、episode索引等元数据，方便研究人员开展时序分析和任务划分。

从应用方向来看，该数据集可覆盖多个核心研发场景：其一，可用于机器人模仿学习训练，研究人员可基于全流程动作数据训练机器人复现不规则物体抓取、移动、放置的完整操作逻辑，优化非标准化物体的抓取姿态规划能力；其二，可支撑视觉伺服控制算法研发，同步的多视角视觉数据与关节状态数据，可用于训练机器人基于实时视觉反馈动态调整操作路径，降低复杂环境下的视觉定位误差，提升放置动作的精准度；其三，可作为强化学习算法的基准测试集，100个完整任务周期的标准化数据，可用于评估不同强化学习算法完成固定操作任务的成功率、执行效率等核心指标；其四，该数据集的研究成果还可迁移至同类家务操作场景，为蔬果处理、餐具摆放等其他服务机器人典型任务的模型训练提供参考。

存储层面，数据采用parquet文件格式分块存储，结构化数据文件总大小为100MB，配套视频文件大小为200MB，轻量化的存储设计降低了下载和使用门槛。数据集遵循Apache 2.0开源许可证，支持学术研究与商业化场景的免费使用，目前相关论文和主页信息暂未公布。

查看put_banana_in_pot_merge

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

HWAN7919发布put_banana_in_pot_merge专用数据集 为机器人操作学习、视觉伺服控制提供标准化训练支撑

Dataset card内容：

Files and versions内容：

社区讨论

HWAN7919发布put_banana_in_pot_merge专用数据集为机器人操作学习、视觉伺服控制提供标准化训练支撑