近年随着大模型技术快速落地,智能体(Agent)已在工业运维、政务服务、自动驾驶、金融风控等多个垂直场景进入规模化试点阶段,但AI系统的运行可靠性、故障修复能力始终是制约规模化落地的核心门槛。当前行业内针对智能体修复系统的评估体系普遍存在评估器与选择器耦合导致的排名偏移问题,不同测试框架下的产品性能对标缺乏统一基准,极大制约了智能体产业的标准化进程。
近日,上海交通大学联合上海海事大学正式发布配对执行轨迹语料库AuditRepairBench,该数据集于2026年5月6日首发于国际学术预印本平台arXiv,是国内首个专门面向智能体修复系统评估、AI系统可靠性测试领域的专用基准数据集,核心目标是量化评估器-选择器耦合对智能体修复系统排名稳定性的影响。
据公开参数显示,AuditRepairBench共包含576000个注册单元格,对应96000条真实执行轨迹,覆盖60种主流智能体系统架构、80项典型场景任务、6类通用评估器配置。为了保证测试场景的覆盖度,数据集构建过程中通过静态分析和动态污点追踪技术,实现选择器输入边界覆盖率≥0.8,覆盖了80%以上的智能体异常触发边界,避免了评估结果的片面性。数据采集环节采用模块化筛选架构,结合学习型影响代理、基于规则的通道暴露率等四种方法生成筛查后验概率,有效过滤了无效轨迹数据对评估结果的干扰。针对中小研发团队的算力需求,团队同步推出轻量版本AuditRepairBench-Lite,仅需24GPU小时即可完成完整测试流程,同时可保持Kendall τ=0.88的排名一致性——Kendall τ是衡量排名稳定性的核心指标,数值越接近1代表评估结果可信度越高,0.88的参数表现已经达到工业级应用要求。
从应用价值来看,该数据集可广泛应用于多个AI可靠性测试场景:既可用于智能体研发厂商的故障修复系统性能自测、不同厂商智能体修复能力的统一对标,也可用于工业控制智能体的故障响应修复验证、政务服务智能体的异常处理能力评估、自动驾驶决策系统的错误修复效果测试等多个垂直领域,还可为AI评估框架的优化提供数据支撑,解决传统评估体系中评估器信号渗入选择逻辑导致的排名偏移问题,大幅提升AI性能评估的公平性与可信度。
作为AI测试领域的核心公共数据资源,AuditRepairBench的发布填补了国内智能体修复评估基准的空白,对于完善AI产业标准化体系、推动通用人工智能技术可靠落地、支撑数据要素市场中AI训练测试数据赛道的发展均具备重要意义。





_1769672084863.jpg)