近年来,随着具身智能成为人工智能领域的核心落地方向,软体机器人凭借可自由形变、适配非结构化场景、操作安全性高等特性,正逐步成为工业、医疗、公共服务等领域的重要技术落地载体。但长期以来,全球范围内针对软体机械臂的视觉语言交互研究缺乏统一的基准数据集,现有多模态机器人操纵数据集大多基于刚性机械臂场景构建,无法适配软体臂形变感知、自适应避障等特殊研发需求,成为制约领域技术突破的核心瓶颈之一。近日,北京航空航天大学联合相关研究机构正式发布软体机器人视觉语言操纵基准数据集ManiSoft,针对刚性与软体机械臂在视觉语言交互研究领域的缺口定向打造,为相关领域的算法研发、效果评估提供了标准化的数据支撑。
据介绍,ManiSoft共包含6300个精心生成的桌面场景及其对应的专家操纵轨迹,每个场景均配备对应的自然语言操作指令,所有场景数据均来源于通过资产库程序化构建的263个三维对象,采用混合物理仿真器生成高保真视觉观察结果,最大程度还原真实物理世界的操作反馈。为保障操纵轨迹的实用性,数据集生成过程采用分层机制,结合高层规划器的规则分解与底层强化学习控制器的扭矩指令生成,既保证了轨迹的稳定性,也具备极强的场景扩展性,可适配不同型号、不同应用场景的软体机械臂研发需求。
该数据集的核心定位是为面向软体机械臂的视觉语言动作模型提供评估与开发底座,重点瞄准领域核心技术痛点:即软体机械臂在缺乏准确本体感知的情况下,如何从视觉观察中推断软体形态、并利用其形变能力完成自适应障碍物避让等核心挑战,为相关算法的迭代提供统一的测试标尺,有效降低跨团队技术对比的沟通成本,加快领域技术迭代效率。
从应用价值来看,ManiSoft可广泛覆盖软体机器人控制、视觉语言导航与操纵等多个前沿领域的研发需求:在工业制造场景中,可支撑柔性装配、精密易碎器件搬运等场景的软体机械臂控制算法迭代,降低异形工件的操作损耗;在医疗健康场景中,可为微创外科手术机器人的视觉引导、自适应力反馈调整等功能的研发提供训练数据支撑;在民用服务场景中,可助力居家服务机器人完成多模态自然语言指令理解、复杂家庭环境避障、柔性物品(如食品、织物)抓取等功能的验证;同时也可为多模态具身大模型的操纵能力评估提供标准化基准,降低相关技术的研发测试成本。
作为前沿科技领域的核心公共数据资源,ManiSoft的发布也为我国具身智能、机器人领域的产学研协同提供了重要的基础支撑。当前我国数据要素市场正逐步向垂直科研领域延伸,高质量的行业基准数据集是支撑前沿技术突破、统一技术评估标准、加快成果转化的核心底座,该数据集的落地不仅填补了细分领域的研究空白,也为国内相关领域的技术创新提供了核心数据动力。





_1769672084863.jpg)