five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

开源AI数据机构LAION发布CoderForge-Preview-v3-316数据集 赋能代码生成与NLP技术研发

五号数据雷达开源数据市场2026-04-24 03:2016
国际开源AI数据组织LAION eV于2026年4月23日在HuggingFace平台首发CoderForge-Preview-v3-316数据集,该数据集为CoderForge系列的预处理抽样子集,适配通义千问系列代码大模型训练需求,可广泛应用于代码生成、自然语言处理等AI研发场景。

随着代码大模型、AI程序员、智能研发助手等产品的快速落地,高质量代码训练数据已成为AI领域的核心稀缺资源。作为全球知名的开源AI数据组织,LAION eV此前曾推出LAION-5B等多个影响全球AI技术发展的开源数据集,在AI训练数据的治理、开源共享领域拥有深厚的行业积累。此次LAION eV发布的CoderForge-Preview-v3-316数据集,瞄准代码大模型训练的细分需求,为行业提供了经过标准化预处理的高质量数据样本。

据介绍,laion/CoderForge-Preview-v3-316 数据集是从 togethercomputer/CoderForge-Preview 中预处理的轨迹数据中抽取的trajectories-tokenized_qwencoder子集。该数据集共包含316行数据,原始数据源共有155144行,分布在R2E_Gym、SWE_Rebench、SWE_Smith、filtered_reward14个不同的数据块中,通过种子为42的确定性抽样方式从4个源数据块的拼接中生成,子集行嵌套。数据集采用Qwen3的本地预处理格式,可与Qwen2.5-Coder、Qwen3-Coder、Qwen3-8B共享分词器,降低了研发团队的二次预处理成本。每行数据包含input_ids(int32 列表)、attention_mask(int8 列表,全为 1)、labels(int64 列表,已应用 -100 掩码)、chat_template_applied(用于调试的渲染结果字符串)、trajectory_id(字符串)、reward(float64)以及source(固定为 togethercomputer/CoderForge-Preview/trajectories-tokenized_qwencoder的字符串)共7类字段,数据结构标准化程度较高。该数据集适用于文本生成任务,并可与axolotl工具配合使用,支持chatml模板和最大32768的序列长度,可适配多轮对话、长代码生成等多个细分场景的训练需求。

从应用方向来看,该数据集可广泛应用于代码生成、自然语言处理领域的研发工作:科研机构可基于该数据集开展小样本代码生成、代码偏好对齐的算法实验;中小AI创业团队可借助该数据集完成轻量代码大模型的微调验证,降低研发门槛;自然语言处理领域的研发人员也可将其用于代码理解、自然语言转代码、多轮代码对话系统等任务的训练测试。此次数据集的开源,进一步丰富了全球开源代码训练数据生态,为AI研发领域的数据要素开放共享提供了新的样本,对于推动代码大模型的技术普惠、加速AI在软件研发场景的落地具有积极的行业意义。

查看CoderForge-Preview-v3-316

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们