five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

WisPaper.AI联合复旦发布Faithfulness-QA数据集 破解大模型幻觉与RAG落地核心痛点

五号数据雷达开源数据市场2026-05-01 06:0024
WisPaper.AI联合复旦大学构建的大规模反事实实体替换数据集Faithfulness-QA于2026年4月30日首发于arXiv,包含近10万条受控冲突样本,可作为问答系统忠实性评估、RAG系统上下文对齐测试的基准资源,为解决大模型过度依赖参数记忆、忽略检索内容的幻觉问题提供核心支撑。

随着生成式AI与检索增强生成(RAG)技术的规模化落地,大模型“幻觉”问题已成为制约AI应用可靠性的核心瓶颈——不少场景下,即便给模型输入了准确的检索上下文,模型仍会优先输出预训练参数记忆中的错误内容,导致回答不符合事实、与给定上下文脱节,而行业此前长期缺乏标准化的测试基准与训练资源,来针对性评估和优化模型的回答忠实度。

近日,WisPaper.AI正式发布Faithfulness-QA数据集,该数据集由WisPaper.AI与复旦大学联合构建,已于2026年4月30日首发于学术预印本平台arXiv,主要面向问答系统忠实性评估、反事实实体替换两大核心领域开放使用。

据介绍,Faithfulness-QA是反事实实体替换领域的大规模专用数据集,共包含99,094条标注样本,所有样本均源自通用问答领域公认的基准数据集SQuAD和TriviaQA的问答对。数据集构建过程中,研发团队通过自动化技术管道批量识别原始问答上下文中的命名实体,将其替换为类型完全一致的替代实体,人工制造“给定上下文内容与大模型预训练参数记忆”之间的受控冲突,从而实现对模型忠实度的可量化测试。目前该数据集覆盖8大类常见实体类型,配套的实体库共包含76,953个从维基百科提取的标准化实体条目,所有样本均经过多轮严格质量过滤,合格率达100%。

从应用价值来看,Faithfulness-QA一方面可作为标准化基准,用于评估RAG系统的上下文 grounding(上下文对齐)能力,量化测试模型回答是否严格遵循给定的检索内容,而非依赖预训练记忆输出错误信息;另一方面也可作为训练语料,支撑基于注意力机制的忠实性训练目标落地,帮助开发者优化模型行为,引导模型优先参考输入的上下文内容回答问题。该数据集可广泛应用于企业级知识库问答、政务智能咨询、医疗辅助问答、法律智能检索等多个对内容准确性要求极高的RAG落地场景,帮助开发者提前排查模型幻觉风险,提升AI应用的可控性与可靠性。当前随着数据要素市场加速发展,高质量AI训练测试数据集已成为大模型产业的核心基础设施,本次Faithfulness-QA的发布也填补了反事实实体替换、问答忠实性评估领域的标准化资源缺口,对推动生成式AI落地的合规性、可靠性有重要行业意义。

查看Faithfulness-QA

详情页内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们