five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Castorini发布NanoKnow_Benchmark数据集,应用在知识问答、模型测试领域

五号数据雷达开源数据市场2026-02-28 19:0221
NanoKnow_Benchmark是Castorini发布的数据集,于2026-02-26首发在HuggingFace应用于知识问答、模型测试领域

Castorini本次发布的数据集NanoKnow_Benchmark,NanoKnow Benchmark Qrels 是一个预构建的相关性判断数据集,用于将 SQuAD 和 Natural Questions (NQ) 划分为支持和不支持的分割,划分依据是答案是否出现在 nanochat 预训练语料库中。该数据集是 NanoKnow 项目的一部分,旨在测试模型的参数化知识和外部知识依赖能力。数据集包含 SQuAD 和 NQ-Open 的问题,其中 SQuAD 有 10,570 个问题(72% 支持,28% 不支持),NQ-Open 有 3,610 个问题(66% 支持,34% 不支持)。支持的问题包含答案在预训练语料库中的文档标识符和答案偏移量,不支持的问题仅包含问题标识符、问题和答案。数据集文件格式为文本文件,支持的问题包含 qid、question、answer、doc_id 和 answer_offset 字段,不支持的问题包含 qid、question 和 answer 字段。数据集生成采用了 BM25 检索、答案字符串匹配和 LLM 验证的三阶段流程。

查看NanoKnow_Benchmark

Dataset card内容:

 

Files and versions内容:

 

关于Castorini,Castorini是一个专注于信息检索和自然语言处理的研究组织。

关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们