浙江大学本次发布的数据集EVMbench,EVMbench是由OpenAI、Paradigm和OtterSec联合发布的首个智能合约安全领域的大规模AI代理基准测试数据集,包含来自40个Code4rena审计仓库的120个精选漏洞样本。该数据集通过隔离的Docker环境评估代理在漏洞检测、修复和利用三方面的能力,其核心价值在于为自动化AI审计提供标准化测试框架。数据来源主要为2025年8月前的历史审计竞赛报告,可能存在模型训练数据污染风险。研究团队额外构建了包含22个2026年2月后真实安全事件的纯净子集,以验证模型在真实场景中的泛化能力。该数据集主要应用于区块链安全领域,旨在评估AI代理在智能合约漏洞挖掘方面的有效性,推动自动化审计技术的发展。
关于浙江大学,浙江大学是中国著名的综合性研究型大学,位于浙江省杭州市,是国家“双一流”、“211工程”和“985工程”重点建设高校之一,以工学、理学、医学、农学等领域的研究和教育著称。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)