Brock University 本次发布的数据集 CENTERBENCH, CENTERBENCH是一个包含9,720个理解问题的数据集,旨在测试语言模型是否真正理解句法结构或依赖于语义捷径。数据集包含360个中心嵌入句子,其中包含控制复杂性缩放和可能性/不可能性配对。每个句子都有六个理解问题,涉及表面理解、句法依赖和因果推理。数据集旨在帮助研究人员评估模型是否在处理复杂句子时放弃结构分析而转向语义捷径,从而提高模型的评估能力。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)