1月6日,瑞士金融研究院(SFI)与苏黎世大学金融系讲席教授 Markus Leippold ,苏黎世联邦理工学院人文社会与政治科学系副教授 Elliott Ash等多位研究者联合发布了 pdfQA 数据集。这是一个面向真实 PDF 文档的问答评测数据集,用于系统评估大模型的文档理解、信息检索与推理能力。
pdfQA数据集由两部分构成:2,000 条自动生成的 syn-pdfQA 问答对和 2,000 条人工标注的 real-pdfQA 问答对。以往的 PDF 问答数据集多聚焦单一类型文档,也很少区分问题的难度以及是否需要跨多个位置检索并整合信息。相比之下,pdfQA 数据集覆盖财报、论文、书籍和披露文件等多种文档,并对问题难度、回答所需参考的位置、数量以及是否需要结合正文与表格等因素进行标注,使评测更贴近真实使用场景,也更容易定位模型的具体短板。
数据集地址: pdfQA
论文地址: pdfQA: Diverse, Challenging, and Realistic Question Answering over PDFs






_1769672084863.jpg)