伊利诺伊大学厄巴纳-香槟分校本次发布的数据集MonitorBench,MonitorBench是由伊利诺伊大学厄巴纳-香槟分校等机构联合推出的首个全开源、综合性基准测试数据集,旨在系统评估大型语言模型中思维链(CoT)的可监控性。该数据集包含1,514条测试实例,涵盖19个任务和7个类别,通过精心设计的决策关键因素来刻画CoT监控模型行为的适用场景。数据集构建过程包括标准测试和压力测试两种设置,后者用于量化CoT可监控性的退化程度。该数据集主要应用于自然语言处理领域,解决LLM推理过程中思维链与最终输出因果脱节导致的监控失效问题,为开发新型监控方法提供研究基础。
关于伊利诺伊大学厄巴纳-香槟分校,伊利诺伊大学厄巴纳-香槟分校(University of Illinois at Urbana-Champaign,简称UIUC)是一所位于美国伊利诺伊州的公立研究型大学,创建于1867年。该校是美国“公立常春藤”之一,以工程、计算机科学、商学和心理学等学科闻名,拥有多个顶尖的研究中心和实验室。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)