当前,高质量预训练数据已经成为决定大语言模型性能上限的核心要素,随着大模型研发向垂直化、轻量化方向发展,中小规模训练场景对数据集分布的均匀性要求持续提升——传统预训练数据集多按子源聚类存储,若训练时洗牌缓冲区容量有限,极易出现数据域分布不均问题,不仅会拖慢模型收敛速度,还可能导致模型输出出现偏见、泛化能力下降等问题。正是瞄准这一行业共性痛点,The Fin AI正式发布全新优化的dolma3_300B_sample_shuffled数据集。
据介绍,本次发布的dolma3_300B_sample_shuffled是基于TheFinAI/dolma3_300B_sample打造的全局行级洗牌数据集,其源数据集由艾伦人工智能研究院(AI2)开源的allenai/dolma3_mix-6T-1025-7B数据集通过每行伯努利采样生成,采样概率约为0.0506,总规模约3000亿个cl100k tokens,完整保留了原始Dolma3数据集的多源混合比例。针对源数据集按子源聚类存储、小规模训练时易出现非均匀源混合的缺陷,本次发布的数据集采用两层洗牌机制实现全局均匀分布:首先将所有数据行随机均匀分配至200个输出桶中,再对每个桶内的数据进行内存级洗牌,在完全保留原始数据混合比例、字段结构的前提下,实现了全数据集的分布均匀性。该数据集的字段与源数据集完全一致,包含source(来源)、date(日期)、text(文本)、token_count(token计数)和category(类别)五大核心字段,语言为英语,采用ODC-BY许可证开放使用,洗牌过程采用固定随机种子42,所有实验结果均可复现。
从应用价值来看,该数据集主要面向大语言模型预训练、文本生成数据增强两大核心场景,对于中小AI创业团队、科研机构而言,无需投入大量计算资源对TB级原始数据集进行清洗、洗牌处理,即可直接调用分布均匀的高质量预训练数据开展研发,大幅降低大模型训练的算力成本与数据处理门槛。此外,该数据集也可用于垂直领域大模型增量预训练、大模型对齐阶段的数据增强、多模型性能基准测试等多个场景,为大模型技术迭代提供标准化的高质量数据底座,也为AI训练数据要素的规范化加工、流通提供了典型参考。





_1769672084863.jpg)