UltraSafety数据集由人民大学、清华大学和腾讯联合创建,旨在评估和提升大模型安全性。该数据集包含3,000个关于越狱的指令样本,每个样本都配有GPT-4给出的无害性评级,其中1表示无害,0表示有害。这些样本来源于AdvBench和MaliciousInstruct中的1,000个种子指令,并通过Self-Instruct方法扩展到2,000个,再通过AutoDAN等方法筛选出830个高质量的越狱指令。UltraSafety数据集旨在通过这些详细的安全相关指令,辅助研究者训练出能够识别并防范潜在安全威胁的模型。





_1769672084863.jpg)