首页 / 开源数据市场 / 正文

北京大学联合上海AI实验室发布CiteVQA基准数据集填补文档视觉问答证据溯源评估空白

五号数据雷达开源数据市场2026-05-15 07:4062

2026年5月13日，北京大学联合上海人工智能实验室在arXiv首发专注证据归因的文档视觉问答基准数据集CiteVQA，破解现有文档VQA评估仅关注最终答案、忽略证据可追溯性的行业痛点，为高风险领域可信文档智能技术研发提供标准化评估支撑。

随着多模态大模型技术的快速迭代，文档视觉问答（VQA）作为文档智能的核心技术方向，已在政务、法律、金融、医疗等多个领域展现出巨大的应用价值。但长期以来，行业内对文档VQA模型的评估仅聚焦于最终答案的准确性，普遍忽略了答案的证据溯源能力，导致AI输出的结论在高风险场景下缺乏可信度，难以满足合规要求。

北京大学本次联合上海人工智能实验室发布的CiteVQA，是国内首个专注于证据归因的文档视觉问答基准数据集，相关成果于2026年5月13日首发于国际学术平台arXiv。该数据集覆盖7个宏观领域，收录了711份平均长达40.6页的PDF文档，共计构建了1897个高质量问题，核心评估要求为模型在给出答案的同时，必须同步提供元素级别的边界框引用，实现答案与文档源内容的精准绑定。为兼顾数据质量与规模化生产能力，CiteVQA采用高度自动化的流水线构建，流程整合了文档解析、智能代理探索、模板驱动的QA合成以及基于掩码消融的关键证据识别技术，既保障了标注数据的精确性，也为后续数据集的扩容迭代奠定了技术基础。

CiteVQA的研发初衷正是为了破解现有文档VQA评估体系的短板，推动可信文档智能的技术发展。其应用场景重点覆盖法律、金融、医疗等高风险领域：在法律场景中，可用于评估合同审查、法条检索、判例分析类AI模型的可信度，确保模型给出的合规意见、法律援引可直接定位到文档具体段落，降低法律执业风险；在金融场景中，可支撑财报审计、研报解读、投研分析类AI的效果验证，让模型输出的营收测算、风险提示可溯源至财报表格、研报原文的具体位置，提升金融决策的可靠性；在医疗场景中，可用于验证病历分析、医保审核类AI的结论合理性，让诊断辅助建议、医保报销合规判断可关联至病历的具体检查项、医嘱内容，减少医疗差错与医保基金流失风险。

从行业价值来看，CiteVQA的发布填补了国内可信文档智能评估基准的空白，是AI基础数据资源体系的重要补充，也为我国数据要素市场中垂直领域训练评估数据集的规范化建设提供了参考样本，将有力推动多模态大模型在高风险垂直领域的合规落地，助力文档智能产业从“能用”向“可信可用”升级。

查看CiteVQA

详情页内容：

社区讨论

近期热门

北京大学联合上海AI实验室发布CiteVQA基准数据集 填补文档视觉问答证据溯源评估空白

详情页内容：

社区讨论

北京大学联合上海AI实验室发布CiteVQA基准数据集填补文档视觉问答证据溯源评估空白