five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Microsoft发布CUAVerifierBench数据集,应用在计算机使用代理、基准评估领域

五号数据雷达开源数据市场2026-04-23 05:416
CUAVerifierBench是Microsoft发布的数据集,于2026-04-22首发在HuggingFace应用于计算机使用代理、基准评估领域

Microsoft本次发布的数据集CUAVerifierBench,CUAVerifierBench 是一个用于评估计算机使用代理(CUA)验证器的基准数据集。该数据集旨在衡量那些评估代理性能的验证器的准确性,而不是直接评估代理本身。数据集包含来自 Fara-7B 代理在 Online-Mind2Web 任务上的轨迹(包括截图、动作和最终答案)以及人类评审员的判决。此外,数据集还包含了 Universal Verifier (MMRubricAgent) 和几个旧版验证器的判决结果。 数据集分为两个配置:trajectories 和 annotations,分别存储任务轨迹和人类评审员的标注信息。trajectories 配置包含任务级别的信息,如指令、初始 URL、最终答案、截图等;annotations 配置则包含每个评审员的详细判决和评论。数据集的两个分割(fara7b_om2w_browserbase 和 internal)分别包含 106 和 154 个任务轨迹。 数据集适用于以下用途:计算验证器与人类判决之间的一致性(如 Cohens κ、准确率、F1 分数);研究评审员之间的分歧以及验证器输出对评审员判决的影响;开发新的验证器提示或架构。 数据集采用 MIT 许可证,使用时需引用相关论文。

查看CUAVerifierBench

Dataset card内容:

 

Files and versions内容:

 

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们