首页 / 开源数据市场 / 正文

Lakera AI 发布 Gandalf Ignore Instruction 数据集, 应用在 AI安全、机器学习防御机制领域

五号数据雷达开源数据市场2025-10-06 19:2037

Gandalf Ignore Instruction 是 Lakera AI 发布的数据集,于 2025-10-06 首发在 arXiv 应用于 AI安全、机器学习防御机制领域

Lakera AI 本次发布的数据集 Gandalf Ignore Instruction, 该数据集包含了在教育游戏中收集的提示，该游戏旨在告知人们关于大型语言模型（LLMs）在提示攻击下可能出现的AI泄露风险。提示内容通过角色扮演的方式揭示游戏中的秘密密码。该数据集的规模为1000条提示，其任务是绕过模型的对齐防御机制。

查看Gandalf Ignore Instruction

Dataset card 内容：

Files and versions 内容：

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

Lakera AI 发布 Gandalf Ignore Instruction 数据集, 应用在 AI安全、机器学习防御机制 领域

Dataset card 内容：

Files and versions 内容：

社区讨论

Lakera AI 发布 Gandalf Ignore Instruction 数据集, 应用在 AI安全、机器学习防御机制领域