five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

德国国际合作机构(GIZ)发布NLP专用评测数据集sample_datatset 首发HuggingFace覆盖查询重写/语义检索场景

五号数据雷达开源数据市场2026-05-21 20:0710
德国国际合作机构(GIZ)于2026年5月19日在开源AI平台HuggingFace首发NLP专用数据集sample_datatset,该数据集内置预生成嵌入向量、标准化测试场景基准,可为查询重写算法开发、语义检索系统效果评估提供统一参照,降低大模型下游应用的开发与评测门槛。

作为德国联邦政府下属的专业国际合作机构,Deutsche Gesellschaft für internationale Zusammenarbeit(简称GIZ,德国国际合作机构)长期在全球范围内推动数字公共产品建设、开源AI基础设施普惠,此次发布的sample_datatset是其在自然语言处理(NLP)领域的最新开源成果,瞄准当前生成式AI落地过程中评测标准不统一的行业痛点。当前查询重写、语义检索已成为RAG(检索增强生成)、智能问答、企业知识库、公开信息检索等场景的核心技术环节,但其评测环节长期缺乏标准化公共数据集:不同厂商自研测试集的场景覆盖度、数据质量参差不齐,不同算法、不同模型的效果横向对比难度高,中小团队更是缺乏足够资源搭建合规、全面的评测基准,一定程度上制约了NLP应用的规模化落地。

本次发布的sample_datatset数据集核心面向查询重写(query-rewriting)任务开发与语义检索系统评估打造,整体由三大模块构成,覆盖从原始数据溯源到评测基准搭建的全流程需求:1)5个原始PDF文件,可支持研究人员校验文本提取效果,保障数据的可追溯性;2)一个parquet格式结构化文件,其中包含从上述5个PDF及额外30个PDF中提取的标准化文本块(chunks),文件中同步预置了每个文本块使用当前主流多语言嵌入模型bge-m3生成的嵌入向量、对应元数据、原始文本内容以及唯一ID列,预生成的嵌入向量可免去开发者重复计算的算力成本,直接调用开展召回测试;3)一个testdata格式的JSON文件,明确定义了第一版查询重写任务涵盖的所有测试场景,每个场景包含对应查询问题、关联的文本块ID以及查询重写的预期行为,为算法效果评估提供了统一的判断标准。整个数据集的核心资产为parquet文件中的文本块及其预生成嵌入表示,JSON文件则提供了针对性的任务定义和评估基准,二者结合可直接支撑算法开发、效果评测等多元需求。

从应用场景来看,该数据集可广泛应用于多个NLP落地场景:企业在开发RAG系统时,可基于该数据集测试不同查询重写策略的召回准确率,优化RAG系统的回答质量;语义检索服务商可将其作为标准化benchmark,横向对比不同版本检索系统的效果,避免自研测试集带来的偏差;学术研究人员可基于该统一数据集开展查询重写算法创新,提升不同研究成果的可比性;针对垂类场景的大语言模型也可基于该数据集的测试场景开展微调,提升用户query的理解能力。作为开源公共AI数据集,sample_datatset的发布也为数据要素市场中的公共AI资源建设提供了参考,标准化的评测类数据集是AI产业发展的核心公共基础设施,这类开源成果的落地,将有效降低中小团队的开发门槛,推动NLP应用的标准化、规范化发展。

查看sample_datatset

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们