随着多模态大语言模型(MLLM)向通用智能演进,现有单视角训练数据支撑下的模型普遍存在真实场景空间认知能力短板——在多传感器融合、虚实交互、机器人导航等需要跨视角判断的场景中,模型往往会出现对象匹配错误、空间关系判断失准等问题,高质量的跨视角标注训练数据已成为行业共性需求。
2026年5月19日,浙江大学科研团队在arXiv平台首发大规模跨视角空间推理指令数据集CrossViewSet,瞄准这一行业痛点,为多模态大语言模型提供显式的对象级跨视图对齐监督。
据公开信息显示,CrossViewSet共包含164.3万条样本,覆盖17种细粒度任务类型,原始数据来源于Ego-Exo4D、EgoHumans、MMPTrack和MessyTable四个公开多视角资源,团队通过自主研发的多智能体数据引擎自动生成掩码标注和问答对,整套数据集历经感知补全、跨视图关联和规则化模板生成三道核心流程构建完成,重点聚焦解决多视角场景下的对象对应、可见性推理、几何关系与物理推理等四大核心技术问题。
从行业应用来看,该类跨视角空间推理数据集的落地应用空间十分广阔:在人形机器人与服务机器人领域,可用于训练模型的多视角空间感知能力,支撑复杂环境下的自主导航、物体识别与精准抓取;在AR/VR领域,可助力优化多视角下的虚实对象对齐、空间锚点校准能力,大幅提升沉浸式交互的精度与流畅度;在自动驾驶与智慧交通领域,可支撑多传感器跨模态数据对齐训练,提升复杂路况下的目标识别、轨迹预判准确率;在工业质检等to B场景中,可辅助多视角产线视觉系统实现缺陷的跨视角定位与匹配,降低漏检误检率。
浙江大学团队表示,CrossViewSet的推出将有效填补跨视角空间推理方向高质量指令训练数据的供给缺口,推动多模态大语言模型从单视角感知能力向适配真实复杂场景的空间智能方向演进,为通用人工智能的空间认知能力迭代提供基础数据支撑。





_1769672084863.jpg)