five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】FineWeb - 15 万亿Token的高质量网络数据集

五号雷达开源数据市场2024-04-23 14:0145
FineWeb是一个由Hugging Face提供的大规模英语网页数据集,包含超过15万亿个经过清洗和去重的Token。

FineWeb是一个由Hugging Face提供的大规模英语网页数据集,包含超过15万亿个经过清洗和去重的Token。该数据集基于95个CommonCrawl数据集构建,总数据量达45TB。这些数据集覆盖了从2013年夏季至2024年3月的网络数据,涵盖了英语领域的广泛主题。FineWeb的主要目标是为研究公共数据在大模型(LLM)预训练中的应用提供资源。通过使用datatrove库对CommonCrawl数据进行精细处理、过滤和去重,FineWeb成为了目前最大且公开可用的干净的LLM预训练数据集。在FineWeb上训练的模型在性能上超越了RefinedWeb、C4、DolmaV1.6、The Pile和SlimPajama等其他数据集。

详情请参见五号雷达:https://www.5radar.com/result?key=FineWeb

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们