five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】Common Corpus - 大型多语言公共领域数据集

五号雷达开源数据市场2024-03-24 10:55102
此数据集展示了无需依赖Common Crawl等版权受限内容,亦能训练出LLMs,旨在建立一个强大的AI数据共享平台,简化研究流程,提升研究可复制性,推动AI的普及、多样性和民主化,确保大型模型的知识普及与应用。

Common Corpus,由Pleias、HuggingFace等机构联合打造,是目前最大的公共领域数据集,专为训练大型语言模型(LLMs)而构建。该数据集汇集了来自全球多样文化遗产项目的 5000 亿词汇,涵盖了英语、法语、荷兰语、西班牙语、德语和意大利语等多种语言,是迄今为止最全面的语言资源库。其拥有迄今为止最大的英语数据集,包含 1800 亿词汇,包括美国重要数字化报纸项目Chronicling America的2100万份文献,Nomic AI原创语料库地图,以及Sebastian Majstorovic收集的专著数据。此外,它还包含了目前最大的法语(1100 亿词汇)、德语(300 亿词汇)、西班牙语、荷兰语和意大利语的开放数据集,以及许多在大型语言模型训练中鲜少涉及的低资源语言。Common Corpus的推出,展示了无需依赖Common Crawl等版权受限内容,亦能训练出LLMs,旨在建立一个强大的AI数据共享平台,简化研究流程,提升研究可复制性,推动AI的普及、多样性和民主化,确保大型模型的知识普及与应用。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们