随着多模态大模型技术的快速迭代,其应用边界正从通用消费场景逐步向专业科研、智慧教育等高门槛垂直领域延伸,但当前行业内针对大模型科学推理能力的评测体系长期存在短板:现有数据集普遍存在学科覆盖单一、难度分层模糊、缺乏图文关联推理任务等问题,无法全面评估大模型在跨学科复杂场景下的综合逻辑推导能力,成为制约大模型向专业科学领域落地的核心瓶颈之一。
2026年5月11日,由中国科学院自动化研究所等机构牵头构建的多模态科学推理基准数据集SciVQR正式首发于学术预印本平台arXiv,为全球AI研发机构提供了统一的科学推理能力评测标尺。据介绍,SciVQR是国内首个覆盖全核心理科领域的多模态推理评测基准数据集,核心定位为全面评估大语言模型在跨学科复杂场景下的综合推理能力。
本次发布的SciVQR数据集共包含3254道经过多轮筛选的专业试题,覆盖数学、物理、化学、地理、天文、生物六大核心科学领域的54个子学科,试题来源涵盖高中至研究生阶段的标准化考试、学科竞赛及权威教材,并根据知识复杂度、推理步骤长度等维度划分为三个难度等级,可适配不同能力层级大模型的评测需求。为保障数据集的标注准确性与内容权威性,其构建过程经过了全流程多阶段质量管控:从原始数据的合规收集、学科专家的交叉标注,到图像的标准化处理,再到自动筛查与人工校验结合的重复项剔除、分类标注工作,全流程确保试题的科学性与评测的公平性。
作为面向科学推理场景的专项数据集,SciVQR的落地应用将覆盖多个核心领域:在AI研发侧,大模型厂商可通过该数据集的评测任务,精准定位现有模型在视觉信息与专业知识融合、多步骤可追溯推理、跨学科知识关联等方面的能力短板,针对性优化模型架构与训练策略;在智慧教育领域,基于该数据集的能力评估框架,可开发面向不同学段的理科个性化学习工具,精准识别学生的知识薄弱点,生成适配性的练习与讲解内容;在科研辅助场景,经过该数据集评测优化后的多模态大模型,可更好地承担跨学科文献解读、实验数据关联分析、科研假设初步验证等工作,有效降低科研人员的重复性劳动负担。
业内人士指出,SciVQR数据集的发布,不仅填补了我国在多模态科学推理评测基准领域的空白,也为全球大模型在专业科学领域的能力评估提供了标准化参考,对推动AI研发领域的数据要素高效流通、加快通用人工智能在垂直科研场景的落地进程具有重要意义。





_1769672084863.jpg)