当前,代码大模型已成为AI赋能软件开发领域的核心落地方向,从自动补全代码片段到辅助生成完整项目模块,其能力边界正在快速拓展。但行业长期面临核心痛点:现有主流代码能力评测基准多为单轮任务模式,仅能验证模型对固定清晰需求的代码输出能力,无法匹配真实开发场景中需求模糊、多轮迭代、动态反馈、工具协同等复杂要求,导致模型实验室评测结果与实际落地表现存在较大落差,也为软件工程自动化测试的场景化落地带来阻碍。
作为全球领先的AI训练数据与评测解决方案服务商,Scale AI长期为自动驾驶、通用大模型、垂直行业AI应用提供高质量数据支撑,其推出的多类行业基准数据集已成为AI能力评估的通用参照。该数据集于2026年6月30日率先在arXiv平台发布,本次推出的SWE-INTERACT,正是Scale AI研究团队针对软件开发场景评测痛点打造的新型软件工程评估测试平台,核心目标是模拟真实开发工作流程中的多轮交互式编码任务,为代码智能体提供更贴近产业落地要求的评测环境。
据了解,SWE-INTERACT数据集共包含75个精心设计的开发任务,全部源自SWE-bench Pro、SWE Atlas和DeepSWE三大全球前沿软件工程基准,通过内置的用户模拟器逐步揭示需求并引入动态反馈机制,完整还原实际开发中从需求对齐、方案迭代到调试优化的全流程。其数据创建过程基于大规模真实编码会话分析完成,采用专家级用户角色建模,同时整合了容器化沙箱环境与工具调用框架,可支持编码智能体调用调试工具、查阅开发文档等真实开发动作的模拟评测。
该数据集的核心应用方向覆盖两大核心领域:在智能代码生成评估层面,可用于测评编码智能体在模糊初始指令下的目标发现能力、根据反馈调整输出的迭代优化性能,以及人机协同开发场景下的协作效率,破解现有单轮基准“测不准真实落地能力”的行业难题;在软件工程自动化测试领域,可基于其交互式场景框架,模拟不同类型的用户需求变动、异常反馈等场景,为自动化测试用例生成、DevOps流程智能化提供数据支撑。未来该数据集还可延伸应用于低代码平台智能助手评估、企业级开发流程效能优化等场景,进一步推动AI在软件开发领域的落地效率。





_1769672084863.jpg)