当前多模态大模型(VLM)的基础感知能力已进入成熟落地阶段,多数开源及商用模型可稳定实现图文识别、场景描述、物体检测等基础任务,但跨模态高阶推理能力仍是行业普遍面临的技术瓶颈——面对几何解题、图表计算、逻辑推导等需要“感知+思考”结合的复合任务时,模型表现的稳定性、准确率始终难以达到产业落地要求。而针对推理能力的专项训练,长期缺乏标注完善、带难度分层的高质量垂直数据集,成为制约VLM能力从“看得懂”向“会思考”进化的核心堵点之一。
本次UCSC-VLAA推出的VLM-CapCurriculum-VisualReasoning-Data(简称D_vis)数据集,正是瞄准这一行业需求打造的专项训练资源,其技术框架源自实验室入选国际机器学习顶会ICML 2026的论文《From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models》,是论文提出的“感知-推理解耦分阶段后训练方案”的第三阶段核心支撑数据,专门面向VLM后训练阶段的推理能力定向提升设计。
UCSC-VLAA本次发布的数据集VLM-CapCurriculum-VisualReasoning-Data,VLM-CapCurriculum-VisualReasoning (D_vis) 是一个用于视觉语言模型后训练的视觉推理数据集,作为论文《From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models》(ICML 2026)中提出的分阶段后训练方案的第三阶段数据。该数据集汇集了来自四个开源语料库的视觉数学和图形推理样本,共计16,195个。具体来源及样本数量为:Math PUMA (合成,6,696个)、GeoQA170K (6,499个)、CLEVR-Math (2,000个) 和 ArxivQA (2倍降采样,1,000个)。每个数据样本包含问题文本、答案、关联的图像路径、数据来源标识,以及一个关键的计算字段 `pass_rate`(通过率)。`pass_rate` 是基于基础模型 Qwen3-VL-8B-Instruct 的16次推理结果计算得出的样本通过率,其值在0到1之间,直接反映了该模型下每个样本的难度。这一设计使得数据集可以按照 `pass_rate` 排序,用于研究基于能力与难度的课程学习策略。该数据集主要适用于视觉问答、视觉推理、数学推理等任务,旨在提升模型的高级推理能力。
相较于传统同类数据集无差别混合样本的结构,本次新增的`pass_rate`字段是该数据集的核心创新点:该字段基于主流开源VLM的实测结果生成,可直接映射不同样本对模型的能力要求,开发者可根据该字段对样本做难度排序,适配“由易到难”的课程学习训练策略,不仅能大幅提升后训练阶段的收敛效率,还可有效避免传统混合训练容易出现的基础能力遗忘、推理能力提升不显著等问题。
从应用价值来看,该数据集除了可为多模态模型训练范式的学术研究提供核心数据支撑外,还可覆盖多个产业级应用场景:面向教育AI赛道,可用于提升拍照搜题、几何自动解题、理科作业智能批改等产品的准确率;面向工业视觉赛道,可用于训练工程图纸参数识别、仪表读数逻辑校验、生产异常推导等工业级模型;面向科研辅助赛道,可用于提升学术论文图表自动解析、实验数据关联推导等工具的处理能力。作为公开数据集首发于HuggingFace后,全球开发者可免费获取相关资源,有望降低多模态推理能力的研发门槛,推动VLM的能力边界进一步延伸。
查看VLM-CapCurriculum-VisualReasoning-Data





_1769672084863.jpg)