本次发布的数据集 Scalable Oversight Benchmark, 该数据集采用了一种基于代理分数差(ASD)度量的原则性框架,以评估人类反馈机制的有效性,该框架衡量了一种机制在多大程度上能够促进真实陈述而非欺骗。为实现这一目标,该数据集利用了Python包(SOlib),以便快速评估可扩展的监督协议。该数据集的任务是评估人工智能监督协议中的人类反馈机制。
查看Scalable Oversight Benchmark
README 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)