five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

伊利诺伊大学厄巴纳-香槟分校发布MonitorBench数据集,应用在大型语言模型、基准测试领域

五号数据雷达开源数据市场2026-04-01 05:0234
MonitorBench是伊利诺伊大学厄巴纳-香槟分校发布的数据集,于2026-03-30首发在arXiv应用于大型语言模型、基准测试领域

伊利诺伊大学厄巴纳-香槟分校本次发布的数据集MonitorBench,MonitorBench是由伊利诺伊大学厄巴纳-香槟分校等机构联合推出的首个全开源、综合性基准测试数据集,旨在系统评估大型语言模型中思维链(CoT)的可监控性。该数据集包含1,514条测试实例,涵盖19个任务和7个类别,通过精心设计的决策关键因素来刻画CoT监控模型行为的适用场景。数据集构建过程包括标准测试和压力测试两种设置,后者用于量化CoT可监控性的退化程度。该数据集主要应用于自然语言处理领域,解决LLM推理过程中思维链与最终输出因果脱节导致的监控失效问题,为开发新型监控方法提供研究基础。

查看MonitorBench

关于伊利诺伊大学厄巴纳-香槟分校,伊利诺伊大学厄巴纳-香槟分校(University of Illinois at Urbana-Champaign,简称UIUC)是一所位于美国伊利诺伊州的公立研究型大学,创建于1867年。该校是美国“公立常春藤”之一,以工程、计算机科学、商学和心理学等学科闻名,拥有多个顶尖的研究中心和实验室。

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们