five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【遇见简讯】pdfQA 数据集:让大模型真正面对真实而复杂的 PDF 问答挑战

五号数据雷达开源数据市场2026-01-08 18:073424
1月6日,瑞士金融研究院(SFI)与苏黎世大学金融系讲席教授 Markus Leippold ,苏黎世联邦理工学院人文社会与政治科学系副教授 Elliott Ash 等多位研究者联合发布了 pdfQA 数据集。

1月6日,瑞士金融研究院(SFI)与苏黎世大学金融系讲席教授 Markus Leippold ,苏黎世联邦理工学院人文社会与政治科学系副教授 Elliott Ash等多位研究者联合发布了 pdfQA 数据集。这是一个面向真实 PDF 文档的问答评测数据集,用于系统评估大模型的文档理解、信息检索与推理能力。

pdfQA数据集由两部分构成:2,000 条自动生成的 syn-pdfQA 问答对和 2,000 条人工标注的 real-pdfQA 问答对。以往的 PDF 问答数据集多聚焦单一类型文档,也很少区分问题的难度以及是否需要跨多个位置检索并整合信息。相比之下,pdfQA 数据集覆盖财报、论文、书籍和披露文件等多种文档,并对问题难度、回答所需参考的位置、数量以及是否需要结合正文与表格等因素进行标注,使评测更贴近真实使用场景,也更容易定位模型的具体短板。

数据集地址: pdfQA

论文地址: pdfQA: Diverse, Challenging, and Realistic Question Answering over PDFs

简讯图片

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们