荷兰应用科学研究组织本次发布的数据集GPT-NL Public Corpus,GPT-NL公共语料库是由荷兰应用科学研究组织联合多家机构构建的荷兰语优先大模型预训练数据集,包含21个子集共360亿荷兰语Token及部分英语、代码等多语言数据。该数据集整合了Common Corpus等现有语料库的精选内容,并通过合作机构采集或合成增强技术新增荷兰语数据,所有数据均遵循CC-BY许可。其核心目标是为商业及非商业用途提供合法、低偏见且高质量的语料,支持荷兰语及多语言模型的开发,解决低资源语言训练数据稀缺与版权合规问题。
关于荷兰应用科学研究组织,荷兰应用科学研究组织(TNO)是荷兰的一家独立研究机构,专注于应用科学和技术创新,为政府和企业提供研究和咨询服务。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)