清华大学 本次发布的数据集 OpenCSG Chinese Corpus, OpenCSG中文语料库由清华大学和OpenCSG联合创建,旨在为大语言模型的训练提供高质量的中文数据集。该语料库包含四个数据集:Fineweb-edu-chinese、Fineweb-edu-chinese-v2、Cosmopedia-chinese和Smoltalk-chinese。Fineweb-edu数据集专注于从多样化的中文网络资源中筛选高质量内容,Cosmopedia-chinese提供合成教材风格的数据,Smoltalk-chinese则强调多样化的聊天格式数据。数据集通过自动化评分和合成文本生成技术构建,具有高质量、多样性和开放性,适用于中文大语言模型的预训练、后训练和微调。
Dataset card 内容:
Files and versions 内容:
关于 清华大学 , 清华大学是中国著名的高等学府,位于北京市。作为中国顶尖的综合性大学之一,清华大学在工程、科学、管理、人文和社会科学等多个领域都有卓越的研究成果和学术影响力。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)