five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

发布ndl-core-corpus数据集,应用在公共数据、人工智能领域

五号数据雷达开源数据市场2026-01-13 19:1726
ndl-core-corpus是发布的数据集,于2026-01-12首发在HuggingFace应用于公共数据、人工智能领域

本次发布的数据集ndl-core-corpus,NDL核心语料库是一个实验性的、适合AI使用的英国公共部门数据集合,作为拟议的国家数据图书馆(NDL)的最小可行原型(MVP)开发。该数据集展示了如何将异构的公共部门数据进行跨机构联合、标准化和清理,并结构化以支持现代AI用例,如检索增强生成(RAG)、知识图谱和代理系统。语料库包括来自GOV.UK、Hansard、legislation.gov.uk等来源的文本数据,以及来自data.gov.uk、ONS和Defra的结构化数据。数据集遵循共享的元数据模式,确保跨异构来源的一致性和可追溯性。处理流程强调标准化格式、语义一致性和数据质量。数据集是一个原型,覆盖范围有限,旨在展示可能性而非替代官方发布渠道。

查看ndl-core-corpus

Dataset card内容:

 

Files and versions内容:

 

关于,国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。

关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们