NASK国家研究机构本次发布的数据集SafeSteerDataset,SafeSteerDataset是由NASK国家研究机构等联合构建的对比数据集,包含2300组安全与不安全提示词对,覆盖性、暴力、仇恨等23个子类别。数据通过Gemini 2.5-Pro生成初稿后,经Qwen-8b嵌入模型筛选(余弦相似度>0.7),确保语义对齐。该数据集专为文本到图像模型的安全转向研究设计,用于精准隔离毒性激活流形,解决现有方法在良性提示上干扰图像质量的问题。
关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)