首页 / 开源数据市场 / 正文

Yale NLP Lab发布Bright-Pro数据集，应用在推理密集型检索、细粒度检索分析领域

五号数据雷达开源数据市场2026-05-01 03:5616

Bright-Pro是Yale NLP Lab发布的数据集，于2026-04-30首发在HuggingFace应用于推理密集型检索、细粒度检索分析领域

Yale NLP Lab本次发布的数据集Bright-Pro，Bright-Pro 是一个专家标注的数据集，扩展自 BRIGHT 基准测试，专注于推理密集型检索任务。该数据集通过将每个查询与多方面的推理分解、重要性权重评分以及按方面组织的精选黄金段落配对，支持对检索器是否覆盖查询所需互补推理方面的细粒度分析。Bright-Pro 包含 7 个 StackExchange 领域的 739 个查询，共计 2,763 个推理方面和 5,272 个黄金段落，这些段落来自一个包含 526,319 个文档的统一语料库。数据集提供三种配置：`examples`（查询级注释）、`aspects`（推理方面注释）和 `documents`（语料库），每种配置都包含七个领域的分割。Bright-Pro 支持静态检索和代理检索两种评估机制，并提供了详细的评估指标和方法。数据集在 MIT 许可下发布，但底层 StackExchange 查询和 BRIGHT 语料库保留其原始许可。

查看Bright-Pro

Dataset card内容：

Files and versions内容：

社区讨论

近期热门