University of Milan 本次发布的数据集 MathComp, MathComp数据集由300个比较场景组成,每个场景涉及两个个体和可量化的活动,如时间、金钱或采取的行动。该数据集旨在研究LLMs中的框架偏差,特别是如何使用“更多”、“更少”或“相等”等术语影响模型预测。数据集中的每个场景都配有多达14个提示变体,并针对三种广泛使用的LLM家族进行评估。该数据集旨在揭示LLMs在推理过程中对语义框架的敏感性,以及如何通过不同的提示设计来影响模型的输出。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)