首页 / 开源数据市场 / 正文

开源AI数据机构LAION发布CoderForge-Preview-v3-316数据集赋能代码生成与NLP技术研发

五号数据雷达开源数据市场2026-04-24 03:2016

国际开源AI数据组织LAION eV于2026年4月23日在HuggingFace平台首发CoderForge-Preview-v3-316数据集，该数据集为CoderForge系列的预处理抽样子集，适配通义千问系列代码大模型训练需求，可广泛应用于代码生成、自然语言处理等AI研发场景。

随着代码大模型、AI程序员、智能研发助手等产品的快速落地，高质量代码训练数据已成为AI领域的核心稀缺资源。作为全球知名的开源AI数据组织，LAION eV此前曾推出LAION-5B等多个影响全球AI技术发展的开源数据集，在AI训练数据的治理、开源共享领域拥有深厚的行业积累。此次LAION eV发布的CoderForge-Preview-v3-316数据集，瞄准代码大模型训练的细分需求，为行业提供了经过标准化预处理的高质量数据样本。

据介绍，laion/CoderForge-Preview-v3-316 数据集是从 togethercomputer/CoderForge-Preview 中预处理的轨迹数据中抽取的trajectories-tokenized_qwencoder子集。该数据集共包含316行数据，原始数据源共有155144行，分布在R2E_Gym、SWE_Rebench、SWE_Smith、filtered_reward14个不同的数据块中，通过种子为42的确定性抽样方式从4个源数据块的拼接中生成，子集行嵌套。数据集采用Qwen3的本地预处理格式，可与Qwen2.5-Coder、Qwen3-Coder、Qwen3-8B共享分词器，降低了研发团队的二次预处理成本。每行数据包含input_ids（int32 列表）、attention_mask（int8 列表，全为 1）、labels（int64 列表，已应用 -100 掩码）、chat_template_applied（用于调试的渲染结果字符串）、trajectory_id（字符串）、reward（float64）以及source（固定为 togethercomputer/CoderForge-Preview/trajectories-tokenized_qwencoder的字符串）共7类字段，数据结构标准化程度较高。该数据集适用于文本生成任务，并可与axolotl工具配合使用，支持chatml模板和最大32768的序列长度，可适配多轮对话、长代码生成等多个细分场景的训练需求。

从应用方向来看，该数据集可广泛应用于代码生成、自然语言处理领域的研发工作：科研机构可基于该数据集开展小样本代码生成、代码偏好对齐的算法实验；中小AI创业团队可借助该数据集完成轻量代码大模型的微调验证，降低研发门槛；自然语言处理领域的研发人员也可将其用于代码理解、自然语言转代码、多轮代码对话系统等任务的训练测试。此次数据集的开源，进一步丰富了全球开源代码训练数据生态，为AI研发领域的数据要素开放共享提供了新的样本，对于推动代码大模型的技术普惠、加速AI在软件研发场景的落地具有积极的行业意义。

查看CoderForge-Preview-v3-316

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

开源AI数据机构LAION发布CoderForge-Preview-v3-316数据集 赋能代码生成与NLP技术研发

Dataset card内容：

Files and versions内容：

社区讨论

开源AI数据机构LAION发布CoderForge-Preview-v3-316数据集赋能代码生成与NLP技术研发