当前具身智能已成为全球AI产业落地的核心赛道之一,而真实场景下标注完整的机器人交互训练数据,是制约具身智能模型研发效率的核心瓶颈——多数中小研发团队受限于硬件成本、场景搭建难度,难以自主采集大规模、多模态的机器人操作数据,高质量开源数据集的补充成为降低行业研发门槛的关键路径。
2026年5月16日,数据贡献者jake123456789在HuggingFace平台正式首发机器人数据集webcam_container_9。该数据集基于HuggingFace开源机器人学习框架LeRobot创建,是专门面向机器人技术研发任务打造的垂直领域数据集,目前已开放公共下载通道。
公开信息显示,webcam_container_9共包含30个完整操作序列(episodes),总计11993帧标注数据,所有数据以parquet格式存储并附带原始视频文件,覆盖单类机器人操作任务。数据集标注维度包含四大类核心特征:其一为动作标签,由6个浮点数组成,对应机器人肩部旋转、肩部提升、肘部弯曲、手腕弯曲、手腕滚动、夹持器位置共6个关节的实时位置;其二为状态观测数据,与动作标签维度一致,同步记录机器人关节的实时运行状态;其三为多视角图像观测数据,包含分辨率1080x1920x3的手腕摄像头第一视角图像,以及分辨率800x1280x3的前置摄像头全局视角图像;除此之外还包含时间戳、帧索引、操作序列索引等完整元数据,方便研发人员按需调用。
从应用价值来看,该数据集可广泛适配机器人技术领域的多类研发需求:在模仿学习场景下,研发团队可基于完整的操作序列与同步标注数据,训练机器人复现对应的操作任务,无需从零开展实体机器人调试,大幅降低训练的时间与硬件成本;在机器人操作控制场景下,多视角视觉数据与关节姿态数据的同步标注,可用于优化视觉伺服控制算法,提升机器人在非结构化场景下的操作精度与响应速度;在强化学习场景下,该数据集可作为离线强化学习的基准测试数据集,支撑奖励函数设计、策略优化模型的效果验证;此外,数据集的多模态标注还可用于视觉信号到机器人动作的跨模态对齐模型研发,为通用具身智能模型的训练提供数据支撑。





_1769672084863.jpg)