five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】CCI 2.0 - 500G规模的高质量中文互联网语料库

五号雷达开源数据市场2024-04-28 13:3164

CCI 2.0(Chinese Corpora Internet 2.0)是由北京智源人工智能研究院发布的一个大规模高质量中文互联网语料库。智源研究院与多家企业经过四个月的努力,共收集约8TB互联网数据,通过严格的清洗和筛选,形成了超过500GB的高质量“中文互联网语料库” CCI 2.0,该数据集涵盖1.25亿个网页,数据类型全面、质量较高、安全可信,包括网页、公众号、博客、百科、问答、试题等。CCI 2.0的建立旨在为国内大数据及人工智能行业提供一个安全、可靠的语料资源,共同推动大数据和人工智能领域的健康发展。

详情请参见五号雷达:https://www.5radar.com/result?key=CCI+2.0

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们