首页 / 开源数据市场 / 正文

TIGER-Lab开源ClawBench基准数据集覆盖283项真实Web任务为AI代理与多模态能力评估提供统一标尺

五号数据雷达开源数据市场2026-05-11 02:4519

2026年5月10日，TIGER-Lab在HuggingFace首发开源ClawBench基准测试数据集，该数据集针对AI网络代理真实场景执行能力测试设计，覆盖多类日常Web操作任务，为AI代理、多模态大模型的能力评估与技术迭代提供标准化测试依据。

随着AI代理、多模态大模型技术的快速落地，面向真实场景的工具调用、任务执行能力正在成为行业评价模型商用价值的核心指标，但长期以来，业内缺乏覆盖真实web环境、统一标准的评估基准，不同研究团队、厂商的AI代理测试结果难以横向对比，也制约了模型的迭代效率。2026年5月10日，TIGER-Lab正式在HuggingFace首发开源ClawBench基准测试数据集，瞄准AI网络代理能力评估需求，为行业提供标准化的测试标尺。

据介绍，ClawBench是专门面向真实网站日常在线任务的AI代理开源评估数据集，核心目标是测试AI代理在无预设置的真实web环境中，完成各类高频在线操作的能力，覆盖场景包括机票酒店预订、生鲜杂货采购、求职申请提交、公共服务办理等多类用户日常高频使用的互联网服务。本次公开的数据集包含两个版本：V1版本覆盖144个主流公开网站、合计153项标准化测试任务；V2版本在V1的基础上新增130项全新测试任务，进一步覆盖了垂直类平台、To B服务平台等此前较少被纳入评估体系的场景。

相较于传统模拟环境下的评估数据集，ClawBench的核心优势在于全链路的行为数据采集：每一项测试任务的运行过程中，都会同步捕获五层行为数据，包括完整会话回放、全流程屏幕截图、全链路HTTP流量数据、AI代理的推理过程痕迹、浏览器端的操作事件记录，同时配套采集了对应任务的人类真实操作数据集作为对照基准。数据集的结构化字段覆盖任务ID、操作指令、任务元类别、所属平台等核心信息，同时提供了额外的共享文件与任务特定上下文说明，大幅降低了研发团队的接入使用门槛。目前ClawBench可广泛适配文本生成、知识问答、工具调用等各类AI代理相关任务的评估需求，原生支持多模态能力的统一测试。

从行业应用价值来看，ClawBench的落地将为多个领域的技术迭代提供支撑：在AI代理研发领域，研发团队可通过该数据集统一测试代理的任务完成率、操作合规性、响应效率等核心指标，实现不同技术路线的横向对比；在多模态大模型迭代领域，配套的屏幕截图、操作轨迹等多模态数据，可用于测试模型对视觉信息、文本指令、交互动作的协同处理能力，推动多模态模型从「感知」向「执行」的能力升级；此外，该数据集还可用于RPA（机器人流程自动化）工具的能力测试、AI操作的人类对齐研究等多个方向。

作为AI训练测试类数据要素的典型代表，ClawBench的发布也填补了AI代理真实场景公开评估基准的供给空白，对推动AI代理产业的标准化建设、加速大模型技术的商用落地具有重要意义。

查看ClawBench

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

TIGER-Lab开源ClawBench基准数据集 覆盖283项真实Web任务 为AI代理与多模态能力评估提供统一标尺

Dataset card内容：

Files and versions内容：

社区讨论

TIGER-Lab开源ClawBench基准数据集覆盖283项真实Web任务为AI代理与多模态能力评估提供统一标尺