Microsoft本次发布的数据集CUAVerifierBench,CUAVerifierBench 是一个用于评估计算机使用代理(CUA)验证器的基准数据集。该数据集旨在衡量那些评估代理性能的验证器的准确性,而不是直接评估代理本身。数据集包含来自 Fara-7B 代理在 Online-Mind2Web 任务上的轨迹(包括截图、动作和最终答案)以及人类评审员的判决。此外,数据集还包含了 Universal Verifier (MMRubricAgent) 和几个旧版验证器的判决结果。 数据集分为两个配置:trajectories 和 annotations,分别存储任务轨迹和人类评审员的标注信息。trajectories 配置包含任务级别的信息,如指令、初始 URL、最终答案、截图等;annotations 配置则包含每个评审员的详细判决和评论。数据集的两个分割(fara7b_om2w_browserbase 和 internal)分别包含 106 和 154 个任务轨迹。 数据集适用于以下用途:计算验证器与人类判决之间的一致性(如 Cohens κ、准确率、F1 分数);研究评审员之间的分歧以及验证器输出对评审员判决的影响;开发新的验证器提示或架构。 数据集采用 MIT 许可证,使用时需引用相关论文。





_1769672084863.jpg)