威尼斯卡·福斯卡里大学 本次发布的数据集 MORABLES, MORABLES是一个由西方文学传统中的寓言和短篇小说组成的人为验证基准,包含709个短故事和寓言及其相应的道德准则。每个条目都包含原始寓言的高质量转录或翻译,以及归属于原始作者或翻译者的道德准则。数据集的主要任务是结构化为多项选择题,针对道德推理,并附有精心设计的干扰项,挑战模型进行更深层次的推理。此外,为了进一步测试模型的鲁棒性,我们还引入了对抗性变种,旨在揭示LLM的漏洞和因数据污染等问题导致的快捷方式。研究表明,虽然更大的模型表现更好,但它们仍然容易受到对抗性操作的影响,并且经常依赖于表面模式而不是真正的道德推理。这种脆弱性导致显著的自我矛盾,最好的模型在道德选择的框架下约有20%的情况下会反驳自己的答案。有趣的是,推理增强模型未能弥补这一差距,这表明规模——而不是推理能力——是主要驱动力。
Dataset card 内容:
Files and versions 内容:
关于 威尼斯卡·福斯卡里大学 , -
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)