首页 / 开源数据市场 / 正文

上海人工智能实验室发布WildClawBench基准数据集填补AI智能体长序列真实场景评估空白

五号数据雷达开源数据市场2026-05-13 04:4243

2026年5月12日，上海人工智能实验室联合相关机构于arXiv首发长视野智能体评估基准数据集WildClawBench，覆盖六大类双语多模态真实工作流任务，可解决现有智能体评估体系在真实部署适配、复杂工具调用验证、轨迹级审计等方面的短板，为高可靠AI代理系统研发提供核心支撑。

当前，AI智能体已成为大模型技术落地产业场景的核心载体，在办公自动化、代码开发辅助、客户服务、工业运维等多个领域的应用需求持续爆发。但行业长期面临评估基准缺位的痛点：现有多数智能体测试集多为短周期、单场景、模拟环境下的任务设计，既无法验证智能体在真实部署环境中连续调用多工具、处理复杂长流程的执行能力，也难以实现执行轨迹的全链路审计，给智能体的落地适配、安全验证带来了明显阻碍。在此背景下，上海人工智能实验室于2026年5月12日在arXiv平台首发全新基准数据集WildClawBench，为长序列智能体的效能评估提供了统一的验证标尺。

据介绍，WildClawBench是由上海人工智能实验室等机构联合创建的面向现实世界的长视野智能体评估基准数据集，包含60项人工精心设计的双语多模态任务，涵盖生产力流程、代码智能、社交互动等六大主题类别，平均每项任务耗时约8分钟，涉及超过20次工具调用，所有任务均来源于真实世界的工作流模拟，最大程度贴近智能体落地时的实际运行场景。为保障数据集的严谨性，其创建过程采用四阶段人工与模型协同的筛选流程，有效确保了任务的生态效度和可审计性，避免了传统测试集脱离实际、可解释性弱的问题。

该数据集主要应用于评估大型语言和视觉语言模型在原生运行时环境中的长序列任务执行能力，针对性解决现有智能体基准在真实部署条件适配、复杂工具使用验证、轨迹级审计等方面的普遍不足。从应用场景来看，WildClawBench可支撑多领域智能体的研发测试：面向办公智能体研发，可验证智能体连续处理会议纪要整理、跨部门日程排期、审批流程流转、多源数据报表生成等全流程任务的可靠性；面向代码智能体开发，可支撑从需求文档解读、代码架构设计、多模块代码编写、bug调试到测试用例生成的全链路能力评估；面向公共服务类智能体，可验证其处理多轮复杂用户诉求、跨系统数据调取、业务流程闭环处理的稳定性。

作为国内少有的面向真实场景的长序列智能体评估基准，WildClawBench的发布不仅填补了相关领域的供给空白，为AI智能体技术研发提供了标准化的验证工具，也进一步丰富了我国人工智能领域的高质量公共数据集供给，对推动可靠、安全的人工智能代理系统技术迭代与商业化落地具有重要意义，将为我国AI产业在智能体赛道的创新发展提供核心数据支撑。

查看WildClawBench

详情页内容：

社区讨论

近期热门

上海人工智能实验室发布WildClawBench基准数据集 填补AI智能体长序列真实场景评估空白

详情页内容：

社区讨论

上海人工智能实验室发布WildClawBench基准数据集填补AI智能体长序列真实场景评估空白