MPI-SWS研究所 本次发布的数据集 BAD-ACTS, BAD-ACTS数据集旨在评估基于LLM的代理系统在面对旨在诱使其执行有害行为的攻击时的鲁棒性。该数据集由四个不同应用环境中的代理系统实现以及188个高质量的有害行为示例组成。这些示例涵盖了代理系统可能造成的各种潜在危害,包括执行未经授权的操作、将恶意代码注入软件以及生成有害内容等。该数据集模块化和可扩展,允许在未来工作中根据需要包括更多环境和数据点。BAD-ACTS为代理系统的安全性研究提供了一个多样化的测试平台,有助于评估代理系统在面对恶意行为和代理间的操纵尝试时的鲁棒性。
README 内容:
关于 MPI-SWS研究所 , MPI-SWS研究所,全称为德国萨尔布吕肯的马克斯·普朗克软件系统研究所(Max Planck Institute for Software Systems),是一家致力于软件系统研究的机构,它在软件理论、系统安全和网络协议等领域开展着前沿研究。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)