随着代码大模型、AI程序员、智能研发助手等产品的快速落地,高质量代码训练数据已成为AI领域的核心稀缺资源。作为全球知名的开源AI数据组织,LAION eV此前曾推出LAION-5B等多个影响全球AI技术发展的开源数据集,在AI训练数据的治理、开源共享领域拥有深厚的行业积累。此次LAION eV发布的CoderForge-Preview-v3-316数据集,瞄准代码大模型训练的细分需求,为行业提供了经过标准化预处理的高质量数据样本。
据介绍,laion/CoderForge-Preview-v3-316 数据集是从 togethercomputer/CoderForge-Preview 中预处理的轨迹数据中抽取的trajectories-tokenized_qwencoder子集。该数据集共包含316行数据,原始数据源共有155144行,分布在R2E_Gym、SWE_Rebench、SWE_Smith、filtered_reward14个不同的数据块中,通过种子为42的确定性抽样方式从4个源数据块的拼接中生成,子集行嵌套。数据集采用Qwen3的本地预处理格式,可与Qwen2.5-Coder、Qwen3-Coder、Qwen3-8B共享分词器,降低了研发团队的二次预处理成本。每行数据包含input_ids(int32 列表)、attention_mask(int8 列表,全为 1)、labels(int64 列表,已应用 -100 掩码)、chat_template_applied(用于调试的渲染结果字符串)、trajectory_id(字符串)、reward(float64)以及source(固定为 togethercomputer/CoderForge-Preview/trajectories-tokenized_qwencoder的字符串)共7类字段,数据结构标准化程度较高。该数据集适用于文本生成任务,并可与axolotl工具配合使用,支持chatml模板和最大32768的序列长度,可适配多轮对话、长代码生成等多个细分场景的训练需求。
从应用方向来看,该数据集可广泛应用于代码生成、自然语言处理领域的研发工作:科研机构可基于该数据集开展小样本代码生成、代码偏好对齐的算法实验;中小AI创业团队可借助该数据集完成轻量代码大模型的微调验证,降低研发门槛;自然语言处理领域的研发人员也可将其用于代码理解、自然语言转代码、多轮代码对话系统等任务的训练测试。此次数据集的开源,进一步丰富了全球开源代码训练数据生态,为AI研发领域的数据要素开放共享提供了新的样本,对于推动代码大模型的技术普惠、加速AI在软件研发场景的落地具有积极的行业意义。





_1769672084863.jpg)