five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

UCSC-VLAA发布VLM感知专项数据集 破解多模态模型感知与推理能力评估难题

五号数据雷达开源数据市场2026-05-21 20:0027
加州大学圣克鲁兹分校视觉语言与多模态分析实验室(UCSC-VLAA)于2026年5月15日在HuggingFace首发VLM-CapCurriculum-Perception-Data数据集,该数据集专为视觉语言模型的感知能力分层训练与精准评估设计,可实现感知与推理能力的解耦测试,为多模态大模型的精细化后训练提供标准化数据支撑。

当前视觉语言模型(VLM)已成为多模态大模型领域的核心发展方向,广泛应用于视觉问答、智能座舱环境感知、内容审核、工业缺陷检测、辅助医疗影像判读等多个场景,但行业长期面临一个共性痛点:当VLM在多模态任务中输出错误结果时,研究者很难精准判断问题出自底层视觉感知能力不足,还是高层逻辑推理能力缺陷,这也导致VLM的后训练往往采用感知、推理混合的粗放模式,训练效率低、能力瓶颈定位难。近日,加州大学圣克鲁兹分校视觉语言与多模态分析实验室(UCSC-VLAA)正式发布VLM-CapCurriculum-Perception-Data(简称D_perc)数据集,该成果源自其入选ICML 2026的论文《从看见到思考:解耦感知与推理改进视觉语言模型的后训练》,为解决上述行业痛点提供了可行的工具方案。

和普通VLM训练数据集不同,VLM-CapCurriculum-Perception-Data的核心设计思路是实现感知能力与推理能力的完全解耦:所有样本均为专门构造的四选一多选题,问题仅通过细粒度的图像观察即可得出正确答案,完全不需要复杂逻辑推理,但未经过专项感知训练的通用强VLM却大概率会答错。通过这种特殊构造,数据集可以完全隔离模型的感知失败与推理失败,专门用于VLM底层视觉感知能力的训练与评估,彻底解决了此前VLM能力评估维度模糊、问题定位难的问题。

据公开信息显示,该数据集的每个样本均包含对应图像、问题、标准答案三个核心字段,同时标注了基于通义千问Qwen3-VL-8B-Instruct模型16次推理结果计算得出的预测值、正确性标识和核心的通过率(pass_rate)指标。其中pass_rate作为样本的难度信号,支持研究者按照难度升序(困难优先)或降序(简单优先)对数据集进行排序,从而开展基于模型能力与样本难度匹配的课程学习实验,探索更高效的VLM训练策略。规模方面,该数据集共包含3360个训练样本,所有图像均源自DOCCI数据集并做2倍下采样处理,总计覆盖14847个图像文件。

从应用场景来看,该数据集首先可用于VLM的感知能力精准评估,帮助研究者快速定位模型的视觉感知短板,比如细粒度物体识别、空间关系判断、微小特征捕捉、多物体属性区分等能力的不足,无需受到推理能力的干扰;其次可作为VLM分阶段后训练的第一阶段(感知训练)专用数据,搭配实验室同步推出的姊妹数据集TextReasoning(文本推理)、VisualReasoning(视觉推理),即可构成完整的感知-推理解耦训练流程,大幅提升VLM后训练的效率与效果;此外,自带的难度标签也使其成为课程学习领域的核心研究数据,支撑相关领域学者探索不同训练策略对VLM能力提升的影响。

作为AI训练数据要素市场中少有的多模态大模型专项能力训练数据集,该数据集的发布不仅填补了VLM感知能力专项训练数据的空白,也为多模态大模型的精细化训练、标准化评估提供了新的可行路径,对于推动多模态大模型的落地应用、完善AI训练数据供给体系均具有重要的参考价值。

查看VLM-CapCurriculum-Perception-Data

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们