首页 / 开源数据市场 / 正文

LAION eV发布CoderForge-Preview-v3-1000预分词数据集适配代码大模型长序列训练需求

五号数据雷达开源数据市场2026-04-24 03:2113

全球知名开源AI数据集机构LAION eV于2026年4月23日在HuggingFace首发CoderForge-Preview-v3-1000预分词轨迹数据集，该数据集兼容Qwen系列代码大模型训练规范，可直接应用于文本生成、代码大模型微调等场景，大幅降低开发者数据预处理成本。

随着代码大模型、多模态生成模型技术迭代加速，高质量、标准化的预分词训练数据已成为AI开发者降低研发成本、提升训练效率的核心刚需。作为全球最具影响力的开源AI数据集研发机构之一，LAION eV此前推出的LAION-5B等多模态数据集曾为Stable Diffusion等现象级生成AI产品提供核心训练支撑，始终是开源AI数据生态的核心贡献者。2026年4月23日，LAION eV正式在HuggingFace平台首发CoderForge-Preview-v3-1000数据集，面向文本生成、代码大模型训练场景提供开箱即用的预分词数据资源。

据公开资料显示，laion/CoderForge-Preview-v3-1000是预分词轨迹数据的精选行子集，源自togethercomputer/CoderForge-Preview数据集中的trajectories-tokenized_qwencoder子集。该数据集共包含1000行数据，从R2E_Gym、SWE_Rebench、SWE_Smith、filtered_reward1四个源slug中以种子=42做确定性采样后拼接而成，具备可复现、可比对的标准化属性。数据格式采用Qwen3原生预分词标准，分词器与Qwen2.5-Coder、Qwen3-Coder、Qwen3-8B等热门开源代码大模型完全兼容，无需额外适配即可直接投入训练流程。每行数据包含input_ids（int32列表）、attention_mask（int8列表，全为1）、labels（int64列表，已应用-100掩码）、chat_template_applied（调试用字符串）、trajectory_id（字符串）、reward（float64）、source（字符串，固定为togethercomputer/CoderForge-Preview/trajectories-tokenized_qwencoder）七大核心字段，覆盖大模型训练所需的完整数据维度。

从落地场景来看，该数据集可直接适配文本生成类任务，尤其适合与axolotl训练框架配合使用，支持最高32768令牌的长序列处理需求。对于AI开发者而言，这类预分词数据集可省去大量数据清洗、分词适配的预处理环节，既可以用于代码大模型小样本微调、长代码生成效果验证、指令调优基准测试等研发场景，也可为预分词算法优化、轨迹奖励模型训练提供标准化的对照数据，大幅降低中小团队进入代码大模型研发领域的门槛。作为开源AI数据生态的最新成果，本次发布的数据集也为AI训练数据的标准化流通提供了参考样本：具备统一格式、明确适配场景的高质量数据集，能够有效减少AI产业的重复研发投入，推动开源大模型生态的普惠化发展。

查看CoderForge-Preview-v3-1000

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

LAION eV发布CoderForge-Preview-v3-1000预分词数据集 适配代码大模型长序列训练需求

Dataset card内容：

Files and versions内容：

社区讨论

LAION eV发布CoderForge-Preview-v3-1000预分词数据集适配代码大模型长序列训练需求