five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

LAION eV发布CoderForge-Preview-v3-100000数据集,应用在自然语言处理、文本生成领域

五号数据雷达开源数据市场2026-04-24 03:1712
CoderForge-Preview-v3-100000是LAION eV发布的数据集,于2026-04-23首发在HuggingFace应用于自然语言处理、文本生成领域

LAION eV本次发布的数据集CoderForge-Preview-v3-100000,laion/CoderForge-Preview-v3-100000是togethercomputer/CoderForge-Preview数据集的一个子集,包含100,000行预处理的tokenized数据,适用于Qwen3模型。数据格式包括input_ids、attention_mask、labels等字段,其中attention_mask全为1,labels已应用-100掩码。数据集还包含chat_template_applied、trajectory_id、reward和source字段。数据来源于四个不同的源(R2E_Gym, SWE_Rebench, SWE_Smith, filtered_reward1),并通过确定性采样(seed=42)生成。适用于文本生成任务,特别是与Qwen3模型相关的应用。

查看CoderForge-Preview-v3-100000

Dataset card内容:

 

Files and versions内容:

 

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们