随着多模态大模型技术的快速迭代,AI对2D图像的语义理解能力已趋近成熟,但涉及3D空间逻辑推理、跨视角场景认知的能力,始终缺乏标准化的统一评测基准,成为制约多模态技术向机器人、AR/VR等实体场景落地的核心瓶颈之一。近日,AI研发团队InternLM正式发布DL3DV-2k空间推理基准测试集,该数据集于2026年5月22日率先上线HuggingFace,专门针对大语言模型的空间视点转换推理能力评估设计。
据介绍,DL3DV-2K是基于现有DL3DV数据集构建的轻量化基准测试集,共包含2000个标准化测试样本,每个样本均由5部分构成:原始视角的实拍图像、仅作为人类参考的变换视角辅助图像(不直接输入模型)、空间推理相关问题、多选项候选答案集以及对应的标准正确答案。其核心评测逻辑为:要求模型仅通过原始视角的单张图像,自主推理、想象出辅助图像对应视点的场景呈现,最终完成相关问题的作答,从而精准量化模型的3D空间理解能力,而非仅仅是对2D图像的语义识别能力。目前该数据集可直接应用于视觉问答(VQA)模型、空间认知相关多模态模型的训练与效果评估环节。
从落地价值来看,DL3DV-2k的应用场景覆盖多个高潜力数字化领域:在智能机器人领域,该数据集可用于评测导航、家政机器人的空间感知能力,验证其是否能从当前摄像头视角推理盲区的障碍物、家居布局,为自主移动决策提供支撑;在AR/VR领域,可用于测试空间内容生成模型的效果,验证其能否基于用户上传的单张空间图像,生成不同视角的沉浸式场景内容;在自动驾驶领域,可辅助评测车载感知系统的跨视角推理能力,提升对视觉盲区路况的预判准确率;此外在工业检测、数字孪生等场景中,该数据集也能为相关多模态模型的能力评估提供标准化参考。
作为数据要素市场中AI训练评测赛道的核心基础设施,高质量的垂直场景基准数据集,是推动大模型技术迭代、实现横向能力对比的核心支撑。此次DL3DV-2k的发布,填补了当前多模态评测领域在空间视点转换方向的工具空白,有望推动多模态大模型的能力边界从“理解平面内容”向“认知立体空间”升级,为后续多模态技术向实体场景落地提供统一的能力标尺。





_1769672084863.jpg)