University of Southern California 本次发布的数据集 MFTCXplain, MFTCXplain是一个多语言基准数据集,用于通过仇恨言论多跳解释来评估大型语言模型(LLMs)的道德推理能力。数据集包含来自葡萄牙语、意大利语、波斯语和英语的3,000条推文,带有二元仇恨言论标签、道德类别和文本跨度级理由。该数据集旨在解决当前评估基准的两个主要不足:缺乏解释道德分类的注释,限制了透明度和可解释性;以及对英语的过度关注,限制了跨不同文化背景下道德推理的评估。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)