首页 / 开源数据市场 / 正文

德国国际合作机构（GIZ）发布NLP专用评测数据集sample_datatset 首发HuggingFace覆盖查询重写/语义检索场景

五号数据雷达开源数据市场2026-05-21 20:0710

德国国际合作机构（GIZ）于2026年5月19日在开源AI平台HuggingFace首发NLP专用数据集sample_datatset，该数据集内置预生成嵌入向量、标准化测试场景基准，可为查询重写算法开发、语义检索系统效果评估提供统一参照，降低大模型下游应用的开发与评测门槛。

作为德国联邦政府下属的专业国际合作机构，Deutsche Gesellschaft für internationale Zusammenarbeit（简称GIZ，德国国际合作机构）长期在全球范围内推动数字公共产品建设、开源AI基础设施普惠，此次发布的sample_datatset是其在自然语言处理（NLP）领域的最新开源成果，瞄准当前生成式AI落地过程中评测标准不统一的行业痛点。当前查询重写、语义检索已成为RAG（检索增强生成）、智能问答、企业知识库、公开信息检索等场景的核心技术环节，但其评测环节长期缺乏标准化公共数据集：不同厂商自研测试集的场景覆盖度、数据质量参差不齐，不同算法、不同模型的效果横向对比难度高，中小团队更是缺乏足够资源搭建合规、全面的评测基准，一定程度上制约了NLP应用的规模化落地。

本次发布的sample_datatset数据集核心面向查询重写（query-rewriting）任务开发与语义检索系统评估打造，整体由三大模块构成，覆盖从原始数据溯源到评测基准搭建的全流程需求：1）5个原始PDF文件，可支持研究人员校验文本提取效果，保障数据的可追溯性；2）一个parquet格式结构化文件，其中包含从上述5个PDF及额外30个PDF中提取的标准化文本块（chunks），文件中同步预置了每个文本块使用当前主流多语言嵌入模型bge-m3生成的嵌入向量、对应元数据、原始文本内容以及唯一ID列，预生成的嵌入向量可免去开发者重复计算的算力成本，直接调用开展召回测试；3）一个testdata格式的JSON文件，明确定义了第一版查询重写任务涵盖的所有测试场景，每个场景包含对应查询问题、关联的文本块ID以及查询重写的预期行为，为算法效果评估提供了统一的判断标准。整个数据集的核心资产为parquet文件中的文本块及其预生成嵌入表示，JSON文件则提供了针对性的任务定义和评估基准，二者结合可直接支撑算法开发、效果评测等多元需求。

从应用场景来看，该数据集可广泛应用于多个NLP落地场景：企业在开发RAG系统时，可基于该数据集测试不同查询重写策略的召回准确率，优化RAG系统的回答质量；语义检索服务商可将其作为标准化benchmark，横向对比不同版本检索系统的效果，避免自研测试集带来的偏差；学术研究人员可基于该统一数据集开展查询重写算法创新，提升不同研究成果的可比性；针对垂类场景的大语言模型也可基于该数据集的测试场景开展微调，提升用户query的理解能力。作为开源公共AI数据集，sample_datatset的发布也为数据要素市场中的公共AI资源建设提供了参考，标准化的评测类数据集是AI产业发展的核心公共基础设施，这类开源成果的落地，将有效降低中小团队的开发门槛，推动NLP应用的标准化、规范化发展。

查看sample_datatset

Dataset card内容：

Files and versions内容：

社区讨论

近期热门