five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

上海交大联合港科大(广州)发布OmniCoT基准数据集 破解多模态大模型全景空间推理评估难题

五号数据雷达开源数据市场2026-07-01 06:156
上海交通大学联合香港科技大学(广州)等机构于2026年6月29日在arXiv首发全球多步全景推理基准数据集OmniCoT,可有效填补当前多模态大语言模型全景空间能力评估的标准空白,为自动驾驶、具身智能等前沿领域的技术研发提供标准化支撑。

随着多模态大语言模型技术的快速迭代,其在复杂物理场景下的空间理解与推理能力,已成为决定自动驾驶、具身智能等领域商业化落地速度的核心指标。但长期以来,行业内缺乏针对360度全景图像场景的多步推理基准数据集,现有测试基准普遍存在问题设计难度偏低、未充分挖掘全景图像全局视野价值的缺陷,导致模型的空间推理能力评估缺乏统一、科学的衡量标准。近日,上海交通大学联合香港科技大学(广州)等机构共同构建的全球多步全景推理基准数据集OmniCoT正式发布,该数据集于2026年6月29日首发于学术平台arXiv,旨在推动多模态大语言模型在360度全景图像中的复杂空间推理能力升级。据介绍,OmniCoT数据集共包含21.6K条高质量问答对,覆盖4.2K张全景图像,通过自动化标注与人工校验相结合的混合流程生成,所有问答对均附有结构化的逐步思维链注释。其创建过程创新性采用三维场景几何到结构化语言表示的转换逻辑,遵循“观察-定位-移动”的渐进式问题分类法,确保所有问题的解答均需要模型完成多跳推理与全局信息整合,从根源上规避了现有基准的设计缺陷。该数据集主要应用于全景空间推理、多跳视觉问答两大领域的模型训练与效果评估,下游可覆盖多个高潜力场景:在具身智能领域,可用于训练服务机器人、工业巡检机器人的陌生环境空间感知能力,支撑机器人完成路径规划、动态避障、目标定位等复杂任务;在自动驾驶领域,可用于优化车载环视感知模型的全局信息整合能力,提升多目标同时追踪、复杂路况预判的准确率;在数字孪生与智慧城市领域,可支撑全景监控系统的异常事件定位、运维路线自动生成等功能的研发。作为AI训练数据要素领域的垂直类基准数据集,OmniCoT的发布也将进一步完善我国多模态大模型研发的供给体系,为相关技术的标准化、产业化落地提供核心支撑。

查看OmniCoT

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们