Lakera 本次发布的数据集 Gandalf, Gandalf数据集由Lakera公司创建,旨在为大语言模型(LLM)的安全防御提供多样化的自适应攻击数据。该数据集包含27.9万条提示攻击数据,通过众包红队平台Gandalf生成,涵盖了多种攻击类型,如越狱攻击、系统提示泄露和间接注入攻击等。数据集的创建过程通过游戏化的方式激励用户生成真实且多样化的攻击数据,并自动标记攻击的成功与否。该数据集的应用领域主要集中在LLM的安全防御研究,旨在帮助开发者设计既能有效防御攻击又不影响用户体验的防御策略。
Dataset card 内容:
Files and versions 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)