首页 / 开源数据市场 / 正文

UCSC-VLAA发布VLM推理专项数据集带难度分层设计破解多模态后训练痛点

五号数据雷达开源数据市场2026-05-17 04:1116

2026年5月16日，加州大学圣克鲁兹分校视觉与语言应用实验室（UCSC-VLAA）于HuggingFace首发VLM-CapCurriculum-VisualReasoning-Data视觉推理专项数据集，包含1.6万余带难度标识的图文推理样本，相关成果入选国际顶会ICML 2026，将为多模态大模型视觉推理、数学推理能力的定向提升提供核心数据支撑。

当前多模态大模型（VLM）的基础感知能力已进入成熟落地阶段，多数开源及商用模型可稳定实现图文识别、场景描述、物体检测等基础任务，但跨模态高阶推理能力仍是行业普遍面临的技术瓶颈——面对几何解题、图表计算、逻辑推导等需要“感知+思考”结合的复合任务时，模型表现的稳定性、准确率始终难以达到产业落地要求。而针对推理能力的专项训练，长期缺乏标注完善、带难度分层的高质量垂直数据集，成为制约VLM能力从“看得懂”向“会思考”进化的核心堵点之一。

本次UCSC-VLAA推出的VLM-CapCurriculum-VisualReasoning-Data（简称D_vis）数据集，正是瞄准这一行业需求打造的专项训练资源，其技术框架源自实验室入选国际机器学习顶会ICML 2026的论文《From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models》，是论文提出的“感知-推理解耦分阶段后训练方案”的第三阶段核心支撑数据，专门面向VLM后训练阶段的推理能力定向提升设计。

UCSC-VLAA本次发布的数据集VLM-CapCurriculum-VisualReasoning-Data，VLM-CapCurriculum-VisualReasoning (D_vis) 是一个用于视觉语言模型后训练的视觉推理数据集，作为论文《From Seeing to Thinking: Decoupling Perception and Reasoning Improves Post-Training of Vision-Language Models》(ICML 2026)中提出的分阶段后训练方案的第三阶段数据。该数据集汇集了来自四个开源语料库的视觉数学和图形推理样本，共计16,195个。具体来源及样本数量为：Math PUMA (合成，6,696个)、GeoQA170K (6,499个)、CLEVR-Math (2,000个) 和 ArxivQA (2倍降采样，1,000个)。每个数据样本包含问题文本、答案、关联的图像路径、数据来源标识，以及一个关键的计算字段 `pass_rate`（通过率）。`pass_rate` 是基于基础模型 Qwen3-VL-8B-Instruct 的16次推理结果计算得出的样本通过率，其值在0到1之间，直接反映了该模型下每个样本的难度。这一设计使得数据集可以按照 `pass_rate` 排序，用于研究基于能力与难度的课程学习策略。该数据集主要适用于视觉问答、视觉推理、数学推理等任务，旨在提升模型的高级推理能力。

相较于传统同类数据集无差别混合样本的结构，本次新增的`pass_rate`字段是该数据集的核心创新点：该字段基于主流开源VLM的实测结果生成，可直接映射不同样本对模型的能力要求，开发者可根据该字段对样本做难度排序，适配“由易到难”的课程学习训练策略，不仅能大幅提升后训练阶段的收敛效率，还可有效避免传统混合训练容易出现的基础能力遗忘、推理能力提升不显著等问题。

从应用价值来看，该数据集除了可为多模态模型训练范式的学术研究提供核心数据支撑外，还可覆盖多个产业级应用场景：面向教育AI赛道，可用于提升拍照搜题、几何自动解题、理科作业智能批改等产品的准确率；面向工业视觉赛道，可用于训练工程图纸参数识别、仪表读数逻辑校验、生产异常推导等工业级模型；面向科研辅助赛道，可用于提升学术论文图表自动解析、实验数据关联推导等工具的处理能力。作为公开数据集首发于HuggingFace后，全球开发者可免费获取相关资源，有望降低多模态推理能力的研发门槛，推动VLM的能力边界进一步延伸。

查看VLM-CapCurriculum-VisualReasoning-Data

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

UCSC-VLAA发布VLM推理专项数据集 带难度分层设计破解多模态后训练痛点

Dataset card内容：

Files and versions内容：

社区讨论

UCSC-VLAA发布VLM推理专项数据集带难度分层设计破解多模态后训练痛点