five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

清华大学 发布 OpenCSG Chinese Corpus 数据集, 应用在 中文语料库、大语言模型 领域

五号数据雷达开源数据市场2025-01-16 12:2170
OpenCSG Chinese Corpus 是 清华大学 发布的数据集,于 2025-01-14 首发在 arXiv 应用于 中文语料库、大语言模型 领域

清华大学 本次发布的数据集 OpenCSG Chinese Corpus, OpenCSG中文语料库由清华大学和OpenCSG联合创建,旨在为大语言模型的训练提供高质量的中文数据集。该语料库包含四个数据集:Fineweb-edu-chinese、Fineweb-edu-chinese-v2、Cosmopedia-chinese和Smoltalk-chinese。Fineweb-edu数据集专注于从多样化的中文网络资源中筛选高质量内容,Cosmopedia-chinese提供合成教材风格的数据,Smoltalk-chinese则强调多样化的聊天格式数据。数据集通过自动化评分和合成文本生成技术构建,具有高质量、多样性和开放性,适用于中文大语言模型的预训练、后训练和微调。

查看OpenCSG Chinese Corpus

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 清华大学 , 清华大学是中国著名的高等学府,位于北京市。作为中国顶尖的综合性大学之一,清华大学在工程、科学、管理、人文和社会科学等多个领域都有卓越的研究成果和学术影响力。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们