随着大视觉语言模型技术的快速迭代,AI在通用场景的跨模态理解能力已得到广泛验证,但面向数学、物理、生物、化学等硬核科学领域的多图像复合推理测评,长期缺乏高权威性、高适配性的标准化基准工具,导致不同技术路线的大模型科学求解能力难以横向对标,也制约了AI for Science(科学智能)领域的研发效率。2026年4月23日,哈尔滨工业大学联合相关机构研发的奥林匹克竞赛级多图像推理基准数据集OMIBench正式首发于国际学术预印本平台arXiv,填补了这一细分领域的基础资源空白。
据介绍,OMIBench是国内首个面向理科竞赛场景的专项多模态推理测评数据集,累计收录生物、化学、数学、物理四大领域共1322道符合奥赛难度的题目,单题平均关联3.07张对应图像,覆盖分子结构式、几何演算模型、物理实验示意图、生物组织切片等多类科研场景下的专业图像类型。为保障数据集的专业度与准确性,研发团队采用OCR智能识别转换+领域专家双重校验的标准化构建流程,所有题目均附带人工标注的规范解题思路与参考答案,同时支持开放式问答、选择题两种主流测评题型,可适配不同定位大模型的测评需求。
该数据集的核心价值在于为大视觉语言模型的多图像证据整合、跨模态语义关联、逻辑推演等核心能力提供统一的测评标尺,为面向复杂科学问题求解的AI系统研发提供标准化测试平台。从潜在应用场景来看,OMIBench既可以支撑科研机构、大模型企业完成不同产品的科学推理能力横向测评,解决过往测评标准不统一、结果参考性不足的问题;也可用于大模型的专项微调训练,提升AI系统在科研辅助分析、专业知识问答等场景的表现,未来还可延伸至智能奥赛培训、教研工具开发、科研文献自动解读、实验室数据智能分析等多个落地方向。
当前我国AI基础资源体系与数据要素市场正处于同步深化建设阶段,高价值垂直领域数据集的开放共享,是降低AI研发门槛、推动技术向细分场景落地的核心支撑。OMIBench的发布不仅为科学智能领域的基准测评体系建设提供了新的参考,也为基础科研与数字技术的融合创新提供了重要的基础资源助力。





_1769672084863.jpg)