近年来,随着大模型驱动的网页代理、AI自动化工具大规模落地,开放网络环境下的提示注入攻击已成为AI安全领域的核心风险——攻击者可通过在公开网页内容中嵌入恶意提示词,诱导网页代理作出违规决策、泄露敏感信息甚至执行恶意操作,而长期以来,该领域的研究和产业应用都缺乏覆盖真实网页场景的标注数据集,制约了防御技术的迭代效率。
本次新加坡国立大学发布的WARD-Base,是由其研究团队牵头构建的垂直于网页代理安全领域的大规模专用数据集,核心目标是为提示注入攻击的检测技术研发提供标准化数据基础。据公开信息,WARD-Base共包含约17.7万条标注样本,覆盖719个主流高流量网站和10个模拟高风险平台,数据来源融合了真实网页爬取探索结果和模拟用户生成内容,通过双分支标注管道完成恶意样本与良性样本的分类构建。数据集构建采用两阶段标准化流程:第一阶段批量采集目标网页的HTML源码、页面截图作为基础上下文数据;第二阶段通过视觉语言模型生成匹配不同网页上下文的提示注入内容,确保样本的场景适配性和攻击真实性。
作为AI安全领域的稀缺垂直数据资源,WARD-Base的典型应用方向覆盖多个产业场景:其一可用于网页代理安全防御模型的训练与效果评测,基于真实网页场景的样本能够大幅提升防御模型在开放网络环境下的鲁棒性,降低提示注入攻击导致的代理决策操纵、安全漏洞等风险;其二可为提示注入攻击检测技术的研发提供基准测试集,支撑研究者优化不同网页上下文下的攻击识别准确率;其三也可作为AI代理、网页自动化工具上线前的安全合规测试数据,帮助企业提前排查产品的安全隐患。





_1769672084863.jpg)