随着工具型AI代理在企业办公场景的落地进程加速,当前越来越多企业引入AI代理承担文档编辑、权限配置、流程流转等高频操作,AI侧的安全风险也逐步从“生成内容违规”向“实际操作风险”延伸。其中,攻击者通过多轮对话逐步诱导AI执行高危操作的“温水煮青蛙”式渐进式攻击,因隐蔽性强、触发阈值低,已成为企业AI安全治理的新痛点,而此前行业缺乏标准化的基准数据集支撑这类风险的量化评估,正是针对这一产业缺口,伊卡洛斯基金会联合罗马大学等多机构共同构建了Boiling the Frog基准测试数据集,于2026年5月22日正式首发于学术预印本平台arXiv。
据介绍,Boiling the Frog是全球范围内少有的聚焦AI操作风险的基准测试数据集,核心目标为评估企业环境中工具型AI代理对渐进式攻击的脆弱性。该数据集共包含157条多轮交互链,每条链覆盖1至20轮用户与AI代理的对话,全部基于真实办公场景的文件编辑操作模拟搭建,所有风险场景均为安全领域专家人工设计,且一一映射欧盟《人工智能法案》划定的高风险AI应用情境,可适配全球主流AI合规监管要求。数据集整体基于沙盒化Docker工作空间实现,测试维度完全聚焦于实际操作风险,可精准测试AI代理在持久化工作空间中,是否会被逐步诱导将文件状态修改为不安全配置,彻底解决了传统AI安全评估仅覆盖输出内容风险、无法覆盖落地操作风险的行业难题。
从应用场景来看,Boiling the Frog数据集可广泛适配多类AI安全需求:其一可用于企业级AI代理的上线前安全校验,企业在部署内部工具型AI系统前,可通过该数据集模拟多轮渐进式诱导场景,提前排查AI被诱骗修改敏感文件权限、调整核心系统配置等潜在漏洞;其二可应用于网络安全红蓝队的攻防演练,为攻防团队提供标准化的AI侧攻击测试标的,提升企业针对AI定向攻击的防御能力;其三可作为AI产品出海的合规校验工具,因其场景设计完全匹配欧盟《人工智能法案》的高风险要求,面向欧盟市场布局的AI服务商可依托该数据集完成前置合规测试,降低跨境业务的政策合规风险。
当前全球AI安全治理体系正加速完善,作为AI技术迭代和安全校验的核心底座,垂直细分场景的高质量基准数据集已成为AI安全产业的核心稀缺资源。本次Boiling the Frog数据集的发布,填补了工具型AI代理操作风险评估领域的标准化数据供给空白,对推动AI安全评估体系完善、支撑AI产业合规健康发展、加快数据要素在AI安全领域的价值释放均具有重要意义。





_1769672084863.jpg)