five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

CAMEL-AI发布seta-env-release开源数据集 覆盖4567个强化学习终端与代码生成训练环境

五号数据雷达开源数据市场2026-05-08 05:1822
开源AI研究社区CAMEL-AI.org于2026年5月7日在HuggingFace平台首发seta-env-release数据集,该数据集为强化学习终端代理训练、代码生成模型研发提供了可验证的标准化训练与评估基准,将有效支撑相关领域的技术迭代。

随着具身智能、代码大模型、终端自主代理等AI技术的快速落地,行业对标准化、可验证的终端操作场景训练数据集的需求持续攀升:当前多数强化学习终端训练环境存在场景覆盖不全、验证逻辑不统一、可复用性差等问题,制约了相关技术的普惠研发。2026年5月7日,开源AI研究社区CAMEL-AI.org正式发布seta-env-release数据集,作为开源可验证的强化学习终端环境数据集,其核心目标是为全球AI社区提供统一的训练与评估支撑资源。
本次发布的seta-env-release数据集共包含两大核心子集,总计覆盖4567个独立环境:一类是SETA_Synth合成任务子集,主要覆盖标准化构建的典型终端操作、代码运行场景;另一类是SETA_Evolve终端代理任务演化变例子集,通过对真实场景的变体扩展,进一步提升模型训练的泛化性。所有任务均采用自包含的Harbor风格任务目录结构,每个目录内置了运行任务、构建环境、执行参考解决方案、运行测试所需的全部文件,用户无需额外配置依赖即可快速调用。数据集整体结构清晰,任务文件夹命名规则统一,其中SETA_Evolve子集的任务名称额外携带后缀,可直接区分不同的演化变体版本。
从数据来源看,本次数据集的样本覆盖了Stack Exchange技术问答社区、NL2Bash命令生成数据集、Kaggle公开笔记本等多个主流技术数据源,各来源的具体数据量统计已在数据集配套的README文档中公示,方便研发人员按需筛选调用。
从应用价值来看,该数据集可广泛应用于多个AI研发场景:在强化学习领域,可支撑终端智能代理的训练与评估,这类代理未来可落地于DevOps自动化运维、服务器批量管理、系统自动配置等企业级场景,大幅降低数字化运维成本;在代码生成领域,可面向Bash、Python等可执行代码的生成模型提供训练素材,同时配套的自动测试逻辑可解决当前代码生成模型“输出语义正确但无法运行”的行业痛点,也可作为通用代码大模型的标准化评估基准,统一不同研发团队的效果验证维度。目前数据集的使用示例、下载调用方法均已在README中完整提供,研发人员可快速上手适配自身研发需求。

查看seta-env-release

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们