首页 / 开源数据市场 / 正文

荷兰应用科学研究组织发布GPT-NL Public Corpus数据集,应用在荷兰语自然语言处理、多语言模型训练领域

五号数据雷达开源数据市场2026-04-03 04:5029

GPT-NL Public Corpus是荷兰应用科学研究组织发布的数据集,于2026-04-01首发在arXiv应用于荷兰语自然语言处理、多语言模型训练领域

荷兰应用科学研究组织本次发布的数据集GPT-NL Public Corpus,GPT-NL公共语料库是由荷兰应用科学研究组织联合多家机构构建的荷兰语优先大模型预训练数据集，包含21个子集共360亿荷兰语Token及部分英语、代码等多语言数据。该数据集整合了Common Corpus等现有语料库的精选内容，并通过合作机构采集或合成增强技术新增荷兰语数据，所有数据均遵循CC-BY许可。其核心目标是为商业及非商业用途提供合法、低偏见且高质量的语料，支持荷兰语及多语言模型的开发，解决低资源语言训练数据稀缺与版权合规问题。

查看GPT-NL Public Corpus

关于荷兰应用科学研究组织,荷兰应用科学研究组织（TNO）是荷兰的一家独立研究机构，专注于应用科学和技术创新，为政府和企业提供研究和咨询服务。

关于arXiv,全球最大的预印本学术论文数据库，涵盖物理、数学、计算机科学等多个学科领域。

社区讨论

近期热门