首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】MAP-CC - 大规模开源中文预训练数据集

五号雷达开源数据市场2024-04-09 14:29101

该数据集的构建突破了传统以英文数据为主的训练模式，为非英语语言特别是中文的深度学习和理解能力提供了新的研究范式。

MAP-CC（Massive Appropriate Pretraining Chinese Corpus）数据集由Multimodal Art Projection 、复旦大学、北京大学等机构共同研发，是一个大规模的开源中文预训练数据集。该数据集包含800亿个Token，由多个子集组成，每个子集都来自不同的数据源，如：博客、新闻文章、中文百科全书、中文学术论文、中文图书等。MAP-CC通过精心设计的数据清洗和筛选流程，提高了中文网络语料库的质量，为学术界和工业界提供了高质量的中文预训练数据和有效的数据准备方法。该数据集的构建突破了传统以英文数据为主的训练模式，为非英语语言特别是中文的深度学习和理解能力提供了新的研究范式。

详情请参见五号雷达：https://www.5radar.com/result?key=MAP-CC

社区讨论

近期热门