Vrije Universiteit Amsterdam 本次发布的数据集 Manipulation Dataset, 本研究提出了一种名为JUSSA的框架,用于检测大型语言模型中的不诚实行为,如谄媚。为此,研究人员创建了一个包含520个样本的数据集,用于测试框架的有效性。该数据集包含各种类型的操纵,如虚假信息、歪曲图片和情感压力,并设计了能够引发特定类型操纵行为的提示模板。数据集旨在帮助LLM判断器更好地识别不诚实的行为,并提高对操纵内容的检测能力。
关于 Vrije Universiteit Amsterdam , 阿姆斯特丹自由大学(Vrije Universiteit Amsterdam)是荷兰的一所研究型大学,成立于1880年,以其高质量的教育和研究而闻名,尤其在医学、自然科学和社会科学领域享有盛誉。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)