复旦大学 本次发布的数据集 Thought-Aligner训练数据集, Thought-Aligner训练数据集是用于训练Thought-Aligner模型的数据集。该数据集包含5000条指令,涵盖了十个典型的场景,能够广泛代表智能体的能力和工具集。数据集通过模拟ReAct执行轨迹生成,包含超过11400个安全和不安全的思维对。数据集的构建过程结合了LLM辅助生成和人工验证,以确保质量和准确性。数据集用于微调Thought-Aligner-1.5B和Thought-Aligner-7B模型,并在三个智能体安全基准上部署。实验结果表明,这两个模型将智能体的行为安全提高到平均90%,显示出显著的安全性能提升。
Dataset card 内容:
Files and versions 内容:
关于 复旦大学 , 复旦大学是中国著名的综合性研究型大学,位于中国上海,拥有多个学科领域的优势,在国内外享有较高的学术声誉。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)