LAION eV本次发布的数据集CoderForge-Preview-v3-100000,laion/CoderForge-Preview-v3-100000是togethercomputer/CoderForge-Preview数据集的一个子集,包含100,000行预处理的tokenized数据,适用于Qwen3模型。数据格式包括input_ids、attention_mask、labels等字段,其中attention_mask全为1,labels已应用-100掩码。数据集还包含chat_template_applied、trajectory_id、reward和source字段。数据来源于四个不同的源(R2E_Gym, SWE_Rebench, SWE_Smith, filtered_reward1),并通过确定性采样(seed=42)生成。适用于文本生成任务,特别是与Qwen3模型相关的应用。
查看CoderForge-Preview-v3-100000





_1769672084863.jpg)