随着代码大模型、多模态生成模型技术迭代加速,高质量、标准化的预分词训练数据已成为AI开发者降低研发成本、提升训练效率的核心刚需。作为全球最具影响力的开源AI数据集研发机构之一,LAION eV此前推出的LAION-5B等多模态数据集曾为Stable Diffusion等现象级生成AI产品提供核心训练支撑,始终是开源AI数据生态的核心贡献者。2026年4月23日,LAION eV正式在HuggingFace平台首发CoderForge-Preview-v3-1000数据集,面向文本生成、代码大模型训练场景提供开箱即用的预分词数据资源。
据公开资料显示,laion/CoderForge-Preview-v3-1000是预分词轨迹数据的精选行子集,源自togethercomputer/CoderForge-Preview数据集中的trajectories-tokenized_qwencoder子集。该数据集共包含1000行数据,从R2E_Gym、SWE_Rebench、SWE_Smith、filtered_reward1四个源slug中以种子=42做确定性采样后拼接而成,具备可复现、可比对的标准化属性。数据格式采用Qwen3原生预分词标准,分词器与Qwen2.5-Coder、Qwen3-Coder、Qwen3-8B等热门开源代码大模型完全兼容,无需额外适配即可直接投入训练流程。每行数据包含input_ids(int32列表)、attention_mask(int8列表,全为1)、labels(int64列表,已应用-100掩码)、chat_template_applied(调试用字符串)、trajectory_id(字符串)、reward(float64)、source(字符串,固定为togethercomputer/CoderForge-Preview/trajectories-tokenized_qwencoder)七大核心字段,覆盖大模型训练所需的完整数据维度。
从落地场景来看,该数据集可直接适配文本生成类任务,尤其适合与axolotl训练框架配合使用,支持最高32768令牌的长序列处理需求。对于AI开发者而言,这类预分词数据集可省去大量数据清洗、分词适配的预处理环节,既可以用于代码大模型小样本微调、长代码生成效果验证、指令调优基准测试等研发场景,也可为预分词算法优化、轨迹奖励模型训练提供标准化的对照数据,大幅降低中小团队进入代码大模型研发领域的门槛。作为开源AI数据生态的最新成果,本次发布的数据集也为AI训练数据的标准化流通提供了参考样本:具备统一格式、明确适配场景的高质量数据集,能够有效减少AI产业的重复研发投入,推动开源大模型生态的普惠化发展。
首页 / 开源数据市场 / 正文
LAION eV发布CoderForge-Preview-v3-1000预分词数据集 适配代码大模型长序列训练需求
五号数据雷达开源数据市场2026-04-24 03:2113
全球知名开源AI数据集机构LAION eV于2026年4月23日在HuggingFace首发CoderForge-Preview-v3-1000预分词轨迹数据集,该数据集兼容Qwen系列代码大模型训练规范,可直接应用于文本生成、代码大模型微调等场景,大幅降低开发者数据预处理成本。

社区讨论
近期热门




_1769672084863.jpg)