首页 / 开源数据市场 / 正文

清华大学发布 OpenCSG Chinese Corpus 数据集, 应用在中文语料库、大语言模型领域

五号数据雷达开源数据市场2025-01-16 12:2170

OpenCSG Chinese Corpus 是清华大学发布的数据集,于 2025-01-14 首发在 arXiv 应用于中文语料库、大语言模型领域

清华大学本次发布的数据集 OpenCSG Chinese Corpus, OpenCSG中文语料库由清华大学和OpenCSG联合创建，旨在为大语言模型的训练提供高质量的中文数据集。该语料库包含四个数据集：Fineweb-edu-chinese、Fineweb-edu-chinese-v2、Cosmopedia-chinese和Smoltalk-chinese。Fineweb-edu数据集专注于从多样化的中文网络资源中筛选高质量内容，Cosmopedia-chinese提供合成教材风格的数据，Smoltalk-chinese则强调多样化的聊天格式数据。数据集通过自动化评分和合成文本生成技术构建，具有高质量、多样性和开放性，适用于中文大语言模型的预训练、后训练和微调。

查看OpenCSG Chinese Corpus

Dataset card 内容：

Files and versions 内容：

关于清华大学 , 清华大学是中国著名的高等学府，位于北京市。作为中国顶尖的综合性大学之一，清华大学在工程、科学、管理、人文和社会科学等多个领域都有卓越的研究成果和学术影响力。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

清华大学 发布 OpenCSG Chinese Corpus 数据集, 应用在 中文语料库、大语言模型 领域

Dataset card 内容：

Files and versions 内容：

社区讨论

清华大学发布 OpenCSG Chinese Corpus 数据集, 应用在中文语料库、大语言模型领域