首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】Common Corpus - 大型多语言公共领域数据集

五号雷达开源数据市场2024-03-24 10:55102

此数据集展示了无需依赖Common Crawl等版权受限内容，亦能训练出LLMs，旨在建立一个强大的AI数据共享平台，简化研究流程，提升研究可复制性，推动AI的普及、多样性和民主化，确保大型模型的知识普及与应用。

Common Corpus，由Pleias、HuggingFace等机构联合打造，是目前最大的公共领域数据集，专为训练大型语言模型（LLMs）而构建。该数据集汇集了来自全球多样文化遗产项目的 5000 亿词汇，涵盖了英语、法语、荷兰语、西班牙语、德语和意大利语等多种语言，是迄今为止最全面的语言资源库。其拥有迄今为止最大的英语数据集，包含 1800 亿词汇，包括美国重要数字化报纸项目Chronicling America的2100万份文献，Nomic AI原创语料库地图，以及Sebastian Majstorovic收集的专著数据。此外，它还包含了目前最大的法语（1100 亿词汇）、德语（300 亿词汇）、西班牙语、荷兰语和意大利语的开放数据集，以及许多在大型语言模型训练中鲜少涉及的低资源语言。Common Corpus的推出，展示了无需依赖Common Crawl等版权受限内容，亦能训练出LLMs，旨在建立一个强大的AI数据共享平台，简化研究流程，提升研究可复制性，推动AI的普及、多样性和民主化，确保大型模型的知识普及与应用。

详情请参见五号雷达：https://www.5radar.com/result?key=Common+Corpus

社区讨论

近期热门