首页 / 开源数据市场 / 正文

TIGER-Lab发布ClawBenchV2Trace数据集，应用在网络智能体评估、浏览器自动化基准测试领域

五号数据雷达开源数据市场2026-05-13 04:3313

ClawBenchV2Trace是TIGER-Lab发布的数据集，于2026-05-12首发在HuggingFace应用于网络智能体评估、浏览器自动化基准测试领域

TIGER-Lab本次发布的数据集ClawBenchV2Trace，ClawBench V2 Traces 是一个包含完整执行轨迹的数据集，记录了在 ClawBench V2 基准测试中每个模型运行的所有原始执行数据。该数据集是 NAIL-Group/ClawBench（任务定义）和 NAIL-Group/ClawBenchV1Trace（V1 轨迹）的配套数据集，专门针对 V2 版本（包含 130 个任务，相较于 V1 的 153 个任务集进行了更新和扩展）。数据集为每个（任务 × 模型 × 尝试）的运行提供一个独立的目录。每个目录都是自包含的，包含以下核心文件：屏幕录制视频（recording.mp4）、网络请求与响应的完整捕获（requests.jsonl）、浏览器操作流（actions.jsonl）、智能体大型语言模型的推理轨迹（agent-messages.jsonl）、最终被拦截的 HTTP 请求（interception.json）、LLM 评判器对拦截负载的裁决结果（judge.json）以及智能体的标准输出和错误日志。这些数据使得研究人员无需重新运行智能体，即可对任何运行进行重新评分、调试或在其基础上构建新的评估器。截至 2026 年 5 月 12 日，该数据集包含 806 个 V2 运行记录，涵盖了多个先进的大型语言模型（如 glm-5.1, deepseek-v4-pro, claude-opus-4-7, gpt-5.5 等）在 130 个真实世界在线任务上的表现。每个运行目录平均大小约为 10-15 MB。该数据集适用于评估网络智能体、浏览器自动化 AI 智能体的性能，支持多模态（视觉、网络、交互）任务的重现性研究、基准测试分析以及智能体行为分析。数据集采用 Apache 2.0 许可证发布。

查看ClawBenchV2Trace

Dataset card内容：

Files and versions内容：

社区讨论

近期热门