LAION eV本次发布的数据集Qwen3-32B-SweSmith-traces,Qwen3-32B SweSmith RL Training Traces 数据集包含了 Qwen3-32B 模型在 SWEsmith 软件工程任务上进行强化学习训练的轨迹数据。数据集由 Terminus-2 代理使用 RLOO (rloo_n) 算法训练生成,涵盖了 1-20 个训练步骤,总计约 236,000 个对话片段,涉及 2,500 个 SWEsmith 任务。数据集中包含多个字段,如对话内容(conversations,包含角色和内容的字典列表)、代理名称(agent)、模型名称(model)、任务标识符(task)、片段编号(episode)、试验名称(trial_name)、结果(result,通过或失败)、任务指令文本(instruction)以及验证器输出的测试结果(verifier_output)。该数据集适用于研究强化学习在软件工程任务中的应用,以及模型训练和性能分析。
关于LAION eV,LAION是一个专注于构建大规模图像-文本对数据集的开源项目。
关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的开发与分享。它提供了丰富的资源,包括超过100万个模型、25万个数据集和40万个应用程序,支持文本、图像、视频、音频和3D等多种模态。此外,平台还提供企业级解决方案和开源工具,如Transformers、Diffusers等,以加速机器学习的研究和应用。





_1769672084863.jpg)