Yale NLP Lab本次发布的数据集Bright-Pro,Bright-Pro 是一个专家标注的数据集,扩展自 BRIGHT 基准测试,专注于推理密集型检索任务。该数据集通过将每个查询与多方面的推理分解、重要性权重评分以及按方面组织的精选黄金段落配对,支持对检索器是否覆盖查询所需互补推理方面的细粒度分析。Bright-Pro 包含 7 个 StackExchange 领域的 739 个查询,共计 2,763 个推理方面和 5,272 个黄金段落,这些段落来自一个包含 526,319 个文档的统一语料库。数据集提供三种配置:`examples`(查询级注释)、`aspects`(推理方面注释)和 `documents`(语料库),每种配置都包含七个领域的分割。Bright-Pro 支持静态检索和代理检索两种评估机制,并提供了详细的评估指标和方法。数据集在 MIT 许可下发布,但底层 StackExchange 查询和 BRIGHT 语料库保留其原始许可。





_1769672084863.jpg)