FineWeb-Edu - 精选教育资源网络数据集
Hugging Face2024-06-03 更新2024-12-12 收录7450
资源简介:
FineWeb-Edu数据集由HuggingFace团队推出,这是 FineWeb 的一个子集,专注于教育内容,表现优于所有公开可访问的网络数据集。该数据集提供了两种大小/过滤级别:1.3 万亿和5.4万亿Token,均使用 GPT2 分词器进行测量。FineWeb-Edu子集基于最近出现的一种过滤LLM训练数据集的新方法:使用合成数据来开发识别教育内容的分类器。这项技术在 Llama 3 和 Phi3 的训练中得到了显著应用,但它对网络数据过滤的大规模影响迄今为止尚未得到充分的公开发掘。团队为了进一步提高 FineWeb的质量,利用 Llama-3-70B-Instruct 生成的注释开发了一个教育质量分类器,创建了 FineWeb-Edu。此数据集不仅为机器学习社区提供了一个用于模型训练的高质量资源,还特别针对教育领域的内容进行了优化,以期解决教育资源的质量和可获取性问题。FineWeb-Edu的发布,标志着在开放教育资源领域的一次重要进步。
原始地址:
立即探测
创建时间:
2024-05-28




_1769672084863.jpg)