five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

The Fin AI发布3000亿tokens级全局洗牌预训练数据集 破解大模型训练数据分布不均痛点

五号数据雷达开源数据市场2026-05-29 05:0311
近日,AI技术服务商The Fin AI于2026年5月28日在HuggingFace首发dolma3_300B_sample_shuffled数据集,通过两层全局行级洗牌技术解决了同源数据集子源聚类导致的小规模训练数据分布不均问题,可广泛应用于大语言模型预训练、文本生成数据增强等场景,为提升大模型训练稳定性与性能表现提供高质量数据支撑。

当前,高质量预训练数据已经成为决定大语言模型性能上限的核心要素,随着大模型研发向垂直化、轻量化方向发展,中小规模训练场景对数据集分布的均匀性要求持续提升——传统预训练数据集多按子源聚类存储,若训练时洗牌缓冲区容量有限,极易出现数据域分布不均问题,不仅会拖慢模型收敛速度,还可能导致模型输出出现偏见、泛化能力下降等问题。正是瞄准这一行业共性痛点,The Fin AI正式发布全新优化的dolma3_300B_sample_shuffled数据集。

据介绍,本次发布的dolma3_300B_sample_shuffled是基于TheFinAI/dolma3_300B_sample打造的全局行级洗牌数据集,其源数据集由艾伦人工智能研究院(AI2)开源的allenai/dolma3_mix-6T-1025-7B数据集通过每行伯努利采样生成,采样概率约为0.0506,总规模约3000亿个cl100k tokens,完整保留了原始Dolma3数据集的多源混合比例。针对源数据集按子源聚类存储、小规模训练时易出现非均匀源混合的缺陷,本次发布的数据集采用两层洗牌机制实现全局均匀分布:首先将所有数据行随机均匀分配至200个输出桶中,再对每个桶内的数据进行内存级洗牌,在完全保留原始数据混合比例、字段结构的前提下,实现了全数据集的分布均匀性。该数据集的字段与源数据集完全一致,包含source(来源)、date(日期)、text(文本)、token_count(token计数)和category(类别)五大核心字段,语言为英语,采用ODC-BY许可证开放使用,洗牌过程采用固定随机种子42,所有实验结果均可复现。

从应用价值来看,该数据集主要面向大语言模型预训练、文本生成数据增强两大核心场景,对于中小AI创业团队、科研机构而言,无需投入大量计算资源对TB级原始数据集进行清洗、洗牌处理,即可直接调用分布均匀的高质量预训练数据开展研发,大幅降低大模型训练的算力成本与数据处理门槛。此外,该数据集也可用于垂直领域大模型增量预训练、大模型对齐阶段的数据增强、多模型性能基准测试等多个场景,为大模型技术迭代提供标准化的高质量数据底座,也为AI训练数据要素的规范化加工、流通提供了典型参考。

查看dolma3_300B_sample_shuffled

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们