近年来,多模态大模型在智能客服、自动驾驶感知、政务图文审核、医疗影像分析、内容生成等多个场景落地加速,但行业长期缺乏统一、权威的标准化评测基准,尤其是针对对抗性攻击场景下的模型鲁棒性评测、细粒度视觉推理能力评估等方向,工具供给不足已成为制约大模型性能迭代与安全落地的核心痛点之一。作为国内数据要素市场化配置改革的先行区,北京市搭建的数据知识产权登记体系,是明确数据权属、保障数据资产合法流通、激励数据要素价值释放的核心基础设施,为各类合规数据资产的权益确认、商业化应用提供了合规支撑。
2026年5月6日,北京市科学技术研究院旗下大模型图文问答评估基准数据集正式完成北京市数据知识产权登记,为多模态大模型评测领域的标准化工具供给提供了新的合规选择。本次登记的大模型图文问答评估基准数据集,专为图像-文本大模型的跨模态视觉理解与推理能力评估设计,核心针对对抗性攻击鲁棒性测试、视觉问答两大核心评测场景开发。数据集从感知、推理两大维度切入,为每幅图像配套设置A、B、C、D四个文字选项,可实现对图像-文本大模型多维度图像识别与判断能力的量化评估。
使用条件方面,该数据集整体以“图像-问题-候选答案”三元组形式构成,使用时需结合图像与文本问答对开展模型训练或测试,覆盖计算机视觉、自然语言处理、多模态学习等多个技术领域的评测需求。其适用范围覆盖图像分类、目标定位、属性识别、场景理解、空间关系推理、身份识别等各类视觉推理任务,服务对象包括人工智能研究人员、第三方模型评估机构、高校大模型研发团队、AI企业的多模态模型研发部门等。
从实际应用价值来看,该类标准化评测数据集可作为多模态大模型研发过程中的性能迭代验证工具、第三方机构开展大模型能力等级评估的统一基准、高校院所开展多模态算法创新的对照工具,尤其针对自动驾驶视觉感知、政务智能审核、医疗影像智能分析等高敏感场景的大模型落地,可通过该数据集的对抗性鲁棒性测试环节,提前排查模型在极端输入、干扰输入场景下的安全风险,提升大模型落地的可靠性。
本次登记的数据集重点解决三大行业共性问题:一是为大模型在对抗攻击环境下的鲁棒性测试提供标准化的图文问答评测数据,可实现对模型视觉理解与推理任务表现的量化评估;二是可支撑大模型训练优化,增强模型对复杂视觉场景的理解与推理能力;三是填补了细粒度视觉问答任务性能评估的标准化工具缺口,为全行业的多模态模型评测提供统一参照。本次数据知识产权登记的完成,也意味着该数据集的权属得到官方确认,后续面向产业界、学术界开放共享、授权使用的合规路径已经打通,将进一步助力我国多模态大模型产业的规范化发展。





_1769672084863.jpg)