TIGER-Lab本次发布的数据集ClawBenchV2Trace,ClawBench V2 Traces 是一个包含完整执行轨迹的数据集,记录了在 ClawBench V2 基准测试中每个模型运行的所有原始执行数据。该数据集是 NAIL-Group/ClawBench(任务定义)和 NAIL-Group/ClawBenchV1Trace(V1 轨迹)的配套数据集,专门针对 V2 版本(包含 130 个任务,相较于 V1 的 153 个任务集进行了更新和扩展)。 数据集为每个(任务 × 模型 × 尝试)的运行提供一个独立的目录。每个目录都是自包含的,包含以下核心文件:屏幕录制视频(recording.mp4)、网络请求与响应的完整捕获(requests.jsonl)、浏览器操作流(actions.jsonl)、智能体大型语言模型的推理轨迹(agent-messages.jsonl)、最终被拦截的 HTTP 请求(interception.json)、LLM 评判器对拦截负载的裁决结果(judge.json)以及智能体的标准输出和错误日志。这些数据使得研究人员无需重新运行智能体,即可对任何运行进行重新评分、调试或在其基础上构建新的评估器。 截至 2026 年 5 月 12 日,该数据集包含 806 个 V2 运行记录,涵盖了多个先进的大型语言模型(如 glm-5.1, deepseek-v4-pro, claude-opus-4-7, gpt-5.5 等)在 130 个真实世界在线任务上的表现。每个运行目录平均大小约为 10-15 MB。 该数据集适用于评估网络智能体、浏览器自动化 AI 智能体的性能,支持多模态(视觉、网络、交互)任务的重现性研究、基准测试分析以及智能体行为分析。数据集采用 Apache 2.0 许可证发布。





_1769672084863.jpg)