帕维亚大学本次发布的数据集SecureBreak,SecureBreak是由帕维亚大学团队开发的面向AI安全的数据集,旨在检测大语言模型因安全对齐缺陷产生的有害输出。该数据集包含3059条经过人工标注的文本样本,数据源自对Llama、Qwen等主流开源模型在JailbreakBench对抗性提示下生成响应的系统收集,采用双人标注机制确保标注一致性(Cohens Kappa=0.85)。其核心价值在于构建生成后过滤模块,既可作为阻断有害内容的最终防线,又能通过监督信号优化模型对齐流程,主要应用于AI安全、内容审核和伦理对齐研究领域。
README内容:
关于帕维亚大学,帕维亚大学是意大利一所历史悠久的公立研究型大学,成立于1361年,位于伦巴第大区的帕维亚市。该校以其在医学、工程学和自然科学等领域的研究和教学而闻名。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)