five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

TIGER-Lab发布ClawBenchV2Trace数据集,应用在网络智能体评估、浏览器自动化基准测试领域

五号数据雷达开源数据市场2026-05-13 04:3313
ClawBenchV2Trace是TIGER-Lab发布的数据集,于2026-05-12首发在HuggingFace应用于网络智能体评估、浏览器自动化基准测试领域

TIGER-Lab本次发布的数据集ClawBenchV2Trace,ClawBench V2 Traces 是一个包含完整执行轨迹的数据集,记录了在 ClawBench V2 基准测试中每个模型运行的所有原始执行数据。该数据集是 NAIL-Group/ClawBench(任务定义)和 NAIL-Group/ClawBenchV1Trace(V1 轨迹)的配套数据集,专门针对 V2 版本(包含 130 个任务,相较于 V1 的 153 个任务集进行了更新和扩展)。 数据集为每个(任务 × 模型 × 尝试)的运行提供一个独立的目录。每个目录都是自包含的,包含以下核心文件:屏幕录制视频(recording.mp4)、网络请求与响应的完整捕获(requests.jsonl)、浏览器操作流(actions.jsonl)、智能体大型语言模型的推理轨迹(agent-messages.jsonl)、最终被拦截的 HTTP 请求(interception.json)、LLM 评判器对拦截负载的裁决结果(judge.json)以及智能体的标准输出和错误日志。这些数据使得研究人员无需重新运行智能体,即可对任何运行进行重新评分、调试或在其基础上构建新的评估器。 截至 2026 年 5 月 12 日,该数据集包含 806 个 V2 运行记录,涵盖了多个先进的大型语言模型(如 glm-5.1, deepseek-v4-pro, claude-opus-4-7, gpt-5.5 等)在 130 个真实世界在线任务上的表现。每个运行目录平均大小约为 10-15 MB。 该数据集适用于评估网络智能体、浏览器自动化 AI 智能体的性能,支持多模态(视觉、网络、交互)任务的重现性研究、基准测试分析以及智能体行为分析。数据集采用 Apache 2.0 许可证发布。

查看ClawBenchV2Trace

Dataset card内容:

 

Files and versions内容:

 

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们