中南财经政法大学本次发布的数据集safety–reasoning dataset,该安全推理数据集由研究团队为探究大语言模型的安全对齐问题而构建,旨在支持触发式思维链劫持的缓解研究。数据集包含经过安全标注的推理链样本,通过多阶段逆向树搜索(MRTS)方法合成恶意输出对齐的思维链数据,解决了传统恶意推理数据稀缺的瓶颈。其核心应用领域为提升大语言模型在开放权重生态系统中的安全推理能力,特别针对适配器微调场景下的持续性后门攻击防御。
关于中南财经政法大学,中南财经政法大学是中华人民共和国教育部直属的一所以经济学、法学、管理学为主干,兼有哲学、文学、史学、理学、工学、艺术学等九大学科门类的普通高等学校。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)