five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

阿姆斯特丹大学发布SCOPE RAG专用训练数据集 破解长文本生成信息覆盖不足痛点

五号数据雷达开源数据市场2026-05-29 05:0411
2026年5月27日,阿姆斯特丹大学联合约翰斯·霍普金斯大学等机构在预印本平台arXiv首发SCOPE感知检索训练数据集,该数据集专为长格式检索增强生成(RAG)系统优化设计,填补了行业内兼顾检索相关性与信息覆盖度的训练数据空白,将有效支撑长文本生成类AI应用的可靠性升级。

当前,检索增强生成(RAG)技术已经成为生成式AI落地的核心路径,凭借可接入外部动态知识、大幅降低大模型幻觉的优势,广泛应用于智能问答、知识管理、内容生成等场景。但行业长期存在共性短板:在生成学术综述、政策解读、行业报告等长格式内容时,传统RAG系统的检索模块仅优先召回语义匹配度最高的内容,往往遗漏多维度关联信息,导致最终输出内容事实覆盖不全、视角单一,而此前全球范围内缺乏专门针对“信息覆盖度”优化的检索训练数据集,大部分训练资源仅标注内容相关性,无法支撑检索模型的双目标优化。

针对这一行业痛点,阿姆斯特丹大学联合约翰斯·霍普金斯大学等机构的研究团队于2026年5月27日在预印本平台arXiv正式发布SCOPE感知检索训练资源数据集,为长格式RAG系统的能力升级提供了核心数据支撑。据介绍,SCOPE数据集共包含9万条训练对,所有样本均源自真实科研查询库Researchy Questions中的用户查询及其分解的多级子问题,研究团队通过Llama-3 70B大模型完成子问题可回答性标注,生成多维度覆盖度评分信号,整个构建过程突破了传统检索训练数据集的设计局限,能够支撑训练出同时兼顾查询语义匹配和多维度信息召回的新型检索模型,直接适配长格式RAG系统的训练需求,从数据供给端解决长文本生成的信息覆盖不足问题。

从应用潜力来看,基于SCOPE数据集优化后的RAG系统,有望在多个垂类场景实现能力突破:在学术科研领域,可支撑长篇文献综述、学科发展报告的自动生成,确保核心研究成果、不同学派的争议观点等多维度信息被完整纳入,避免遗漏重要研究脉络;在政务服务领域,可用于政策解读材料、跨部门办事指南的生成,能够覆盖不同群体的差异化需求、不同层级的关联政策要求,减少信息偏差;在企业服务领域,可适配市场调研报告、竞品分析、行业趋势研判等内容的自动生成,全面覆盖政策、供应链、用户、竞品等多维度信息,提升输出内容的参考价值。

作为AI基础数据要素的重要组成部分,垂直场景专用训练数据集的供给能力直接决定了大模型应用的落地效果,此次SCOPE数据集的推出,填补了检索增强生成领域针对信息覆盖度优化的训练数据空白,对于推动RAG技术从短文本问答场景向长文本深度内容生成场景延伸,提升生成式AI内容的可靠性和实用性具有重要的行业意义。

查看SCOPE

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们