首页 / 开源数据市场 / 正文

开源开发者bowen0923i发布bowen_vla多模态机器人数据集支撑抓取控制、多视角感知研发

五号数据雷达开源数据市场2026-05-10 23:3528

开源开发者bowen0923i于2026年5月10日在全球开源AI平台HuggingFace首发bowen_vla多模态机器人数据集，依托LeRobot框架构建，覆盖人形机器人抓取控制、多摄像头感知两大核心场景，可为具身智能模型训练提供高质量结构化标注数据。

近年来，具身智能与人形机器人赛道进入商业化落地攻坚期，高质量、多模态的实机运行标注数据，是训练机器人控制模型、提升感知决策能力的核心基础资源，也是当前行业普遍面临的供给短板。近日，开源开发者bowen0923i正式发布多模态机器人数据集bowen_vla，该数据集于2026年5月10日首发于全球最大的AI模型与数据集开源平台HuggingFace，可广泛应用于机器人抓取控制、多摄像头感知两大核心研发场景。

据公开信息显示，bowen_vla数据集依托LeRobot框架创建，该框架是当前具身智能领域应用最广泛的开源数据采集与标注工具链之一，可实现机器人运动数据、视觉数据的同步采集与结构化处理。本次发布的数据集针对Unitree_G1_Gripper人形机器人的运行场景采集，共包含216个任务 episodes，总帧数量达163330帧，覆盖2类核心任务，配套648条标注视频。数据维度涵盖三大类：一是机器人本体运行数据，包含16维浮点型机器人状态观测值、16维浮点型动作指令值；二是多视角视觉数据，分别来自机器人左肩高位、左腕、右腕三个不同位置的采集摄像头，视频分辨率为480x640，帧率达30fps，可完整覆盖机器人操作空间的全局与局部视觉信息；三是配套元数据，包含时间戳、帧索引等标注信息，可直接适配主流具身智能模型的训练需求。

从应用场景来看，bowen_vla数据集的开放可有效填补人形机器人抓取控制、多视角感知场景的训练数据供给缺口。在机器人抓取控制领域，研发团队可依托该数据集的实机状态与动作对应数据，训练抓取轨迹规划、力度自适应调整、异形物体抓取策略等模型，大幅降低实机调试的时间与成本；在多摄像头感知领域，多位置、同步采集的视觉数据可用于训练多视角视觉融合算法、动态障碍物识别、非结构化工作空间感知等核心能力，为人形机器人走进工业生产、家庭服务等落地场景提供数据支撑。

业内分析指出，当前具身智能领域的公开数据集普遍存在采集场景单一、数据维度不全、标注质量参差不齐等问题，bowen_vla数据集的开放为行业提供了一套标准化的实机运行数据样本，对降低中小研发团队的准入门槛、推动具身智能技术落地具有积极意义，也进一步丰富了AI研发领域的数据要素供给体系。

查看bowen_vla

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

开源开发者bowen0923i发布bowen_vla多模态机器人数据集 支撑抓取控制、多视角感知研发

Dataset card内容：

Files and versions内容：

社区讨论

开源开发者bowen0923i发布bowen_vla多模态机器人数据集支撑抓取控制、多视角感知研发