首页 / 开源数据市场 / 正文

Microsoft发布CUAVerifierBench数据集，应用在计算机使用代理、基准评估领域

五号数据雷达开源数据市场2026-04-23 05:416

CUAVerifierBench是Microsoft发布的数据集，于2026-04-22首发在HuggingFace应用于计算机使用代理、基准评估领域

Microsoft本次发布的数据集CUAVerifierBench，CUAVerifierBench 是一个用于评估计算机使用代理（CUA）验证器的基准数据集。该数据集旨在衡量那些评估代理性能的验证器的准确性，而不是直接评估代理本身。数据集包含来自 Fara-7B 代理在 Online-Mind2Web 任务上的轨迹（包括截图、动作和最终答案）以及人类评审员的判决。此外，数据集还包含了 Universal Verifier (MMRubricAgent) 和几个旧版验证器的判决结果。数据集分为两个配置：trajectories 和 annotations，分别存储任务轨迹和人类评审员的标注信息。trajectories 配置包含任务级别的信息，如指令、初始 URL、最终答案、截图等；annotations 配置则包含每个评审员的详细判决和评论。数据集的两个分割（fara7b_om2w_browserbase 和 internal）分别包含 106 和 154 个任务轨迹。数据集适用于以下用途：计算验证器与人类判决之间的一致性（如 Cohens κ、准确率、F1 分数）；研究评审员之间的分歧以及验证器输出对评审员判决的影响；开发新的验证器提示或架构。数据集采用 MIT 许可证，使用时需引用相关论文。

查看CUAVerifierBench

Dataset card内容：

Files and versions内容：

社区讨论

近期热门