新加坡管理大学 本次发布的数据集 SecureAgentBench, SecureAgentBench是一个包含105个编码任务的数据集,旨在严格评估代码代理在安全代码生成方面的能力。每个任务都包括真实的任务设置,需要在大型的代码库中进行多文件编辑,基于真实世界的开源漏洞构建的上下文,以及功能测试、通过概念验证漏洞进行的漏洞检查和静态分析检测新引入漏洞的全面评估。该数据集旨在模拟软件开发过程中人类开发者引入漏洞的情境,并提供了真实且符合实际软件演变的评估场景。
README 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)