首页 / 开源数据市场 / 正文

InternLM发布DL3DV-2k多模态基准数据集填补大模型空间视点推理评估空白

五号数据雷达开源数据市场2026-05-23 03:568

AI研发团队InternLM于2026年5月22日在HuggingFace首发DL3DV-2k空间推理基准测试数据集，可广泛应用于视点转换推理、视觉问答模型评估等场景，为多模态大模型的3D空间认知能力评测提供标准化工具支撑。

随着多模态大模型技术的快速迭代，AI对2D图像的语义理解能力已趋近成熟，但涉及3D空间逻辑推理、跨视角场景认知的能力，始终缺乏标准化的统一评测基准，成为制约多模态技术向机器人、AR/VR等实体场景落地的核心瓶颈之一。近日，AI研发团队InternLM正式发布DL3DV-2k空间推理基准测试集，该数据集于2026年5月22日率先上线HuggingFace，专门针对大语言模型的空间视点转换推理能力评估设计。

据介绍，DL3DV-2K是基于现有DL3DV数据集构建的轻量化基准测试集，共包含2000个标准化测试样本，每个样本均由5部分构成：原始视角的实拍图像、仅作为人类参考的变换视角辅助图像（不直接输入模型）、空间推理相关问题、多选项候选答案集以及对应的标准正确答案。其核心评测逻辑为：要求模型仅通过原始视角的单张图像，自主推理、想象出辅助图像对应视点的场景呈现，最终完成相关问题的作答，从而精准量化模型的3D空间理解能力，而非仅仅是对2D图像的语义识别能力。目前该数据集可直接应用于视觉问答（VQA）模型、空间认知相关多模态模型的训练与效果评估环节。

从落地价值来看，DL3DV-2k的应用场景覆盖多个高潜力数字化领域：在智能机器人领域，该数据集可用于评测导航、家政机器人的空间感知能力，验证其是否能从当前摄像头视角推理盲区的障碍物、家居布局，为自主移动决策提供支撑；在AR/VR领域，可用于测试空间内容生成模型的效果，验证其能否基于用户上传的单张空间图像，生成不同视角的沉浸式场景内容；在自动驾驶领域，可辅助评测车载感知系统的跨视角推理能力，提升对视觉盲区路况的预判准确率；此外在工业检测、数字孪生等场景中，该数据集也能为相关多模态模型的能力评估提供标准化参考。

作为数据要素市场中AI训练评测赛道的核心基础设施，高质量的垂直场景基准数据集，是推动大模型技术迭代、实现横向能力对比的核心支撑。此次DL3DV-2k的发布，填补了当前多模态评测领域在空间视点转换方向的工具空白，有望推动多模态大模型的能力边界从“理解平面内容”向“认知立体空间”升级，为后续多模态技术向实体场景落地提供统一的能力标尺。

查看DL3DV-2k

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

InternLM发布DL3DV-2k多模态基准数据集 填补大模型空间视点推理评估空白

Dataset card内容：

Files and versions内容：

社区讨论

InternLM发布DL3DV-2k多模态基准数据集填补大模型空间视点推理评估空白