FineWeb-Edu数据集由HuggingFace团队推出,这是FineWeb的一个子集,专注于教育内容,表现优于所有公开可访问的网络数据集。该数据集提供了两种大小/过滤级别:1.3万亿和5.4万亿Token,均使用GPT2分词器进行测量。FineWeb-Edu子集基于最近出现的一种过滤LLM训练数据集的新方法:使用合成数据来开发识别教育内容的分类器。这项技术在 Llama 3和Phi3的训练中得到了显著应用,但它对网络数据过滤的影响迄今为止尚未得到充分发掘。团队为了进一步提高FineWeb的质量,利用 Llama-3-70B-Instruct 生成的注释开发了一个教育质量分类器,创建了FineWeb-Edu。此数据集不仅为机器学习社区提供了一个用于模型训练的高质量资源,还特别针对教育领域的内容进行了优化,以期解决教育资源的质量和可获取性问题。FineWeb-Edu的发布,标志着在开放教育资源领域的一次重要进步。
详情请参见五号雷达:https://www.5radar.com/dataset?id=a82a177cc1837182eb71a54ff0278fc9





_1769672084863.jpg)