首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】万卷CC - 高质量英文网络文本数据集

五号雷达开源数据市场2024-03-07 16:4848

上海人工智能实验室发布新一代高质量大模型预训练语料“万卷CC”（WanJuan-CC），首批开源的语料覆盖过去十年互联网上的公开内容，包含1千亿字符（100B token），约400GB的高质量英文数据。

上海人工智能实验室发布新一代高质量大模型预训练语料“万卷CC”（WanJuan-CC），首批开源的语料覆盖过去十年互联网上的公开内容，包含1千亿字符（100B token），约400GB的高质量英文数据。研究团队通过对CC原始数据进行清洗，去除了网页代码和重复内容，同时利用分类模型剔除了广告和质量较差的信息，并通过内容一致性、语法正确性、数据噪声和信息价值等四个维度，对语言的流畅性进行评估，最终以1.38%的超低留存率提炼出精华数据。该数据集将为学界和业界提供大规模、高质量的数据支撑，助力构建更智能可靠的AI大模型。

数据集地址: https://opendatalab.com/OpenDataLab/WanJuanCC

社区讨论

近期热门