本次发布的数据集ndl-core-corpus,NDL核心语料库是一个实验性的、适合AI使用的英国公共部门数据集合,作为拟议的国家数据图书馆(NDL)的最小可行原型(MVP)开发。该数据集展示了如何将异构的公共部门数据进行跨机构联合、标准化和清理,并结构化以支持现代AI用例,如检索增强生成(RAG)、知识图谱和代理系统。语料库包括来自GOV.UK、Hansard、legislation.gov.uk等来源的文本数据,以及来自data.gov.uk、ONS和Defra的结构化数据。数据集遵循共享的元数据模式,确保跨异构来源的一致性和可追溯性。处理流程强调标准化格式、语义一致性和数据质量。数据集是一个原型,覆盖范围有限,旨在展示可能性而非替代官方发布渠道。
Dataset card内容:
Files and versions内容:
关于,国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。
关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)