随着大语言模型加速向To B业务场景渗透,行业端对大模型真实业务落地能力的评估需求持续攀升。长期以来,行业通用的大模型评估基准多采用静态预设测试集,与真实业务中多步骤跳转、跨系统协同、需求动态调整的工作流场景匹配度较低,导致大量在通用评测中表现优异的大模型,落地到具体业务场景时往往出现流程出错、跨系统衔接失效等问题,动态工作流场景下的大模型能力评估已成为产业落地的核心瓶颈之一。
近日,香港中文大学联合其余6所高校共同构建的动态工作流智能体评估基准Claw-Eval-Live正式发布,该数据集已于2026年5月1日首发于学术预印本平台arXiv。据介绍,Claw-Eval-Live的核心特色在于采用ClawHub Top-500技能作为实时需求信号源,当前版本共包含105个跨业务服务与本地工作空间修复的标准化任务,覆盖18个受控服务及沙盒环境,所有任务均经过157个候选任务的优化筛选形成。为保障评估的科学性与贴近性,数据集构建采用五阶段标准化管道:从公开工作流信号采集开始,经模式聚类、家族权重分配、种子扩展多环节处理,最终通过混合整数线性规划完成判别感知的发布选择,确保测试任务全面覆盖主流业务场景的典型工作流特征。
该基准的核心定位是填补动态工作流场景的大模型评估空白,特别适用于评估大语言模型在人力资源、企业管理系统等复杂业务场景中的端到端工作完成能力,未来也可延伸应用于金融信贷审批、政务多部门联办、IT运维故障排查、电商用户服务全链路处理等多类涉及动态工作流的场景评估,为大模型研发企业优化业务适配能力、需求方选型大模型服务提供统一的参考标尺。作为AI评测领域的专业基础数据资源,Claw-Eval-Live的发布也将进一步丰富AI支撑类公共数据集的供给,为大模型产业的标准化落地提供重要的基础工具支撑,推动AI技术从通用能力验证向垂直业务落地的全流程评估体系完善。
首页 / 开源数据市场 / 正文
港中文联合7所高校发布Claw-Eval-Live基准数据集 破解大模型动态业务能力评估痛点
五号数据雷达开源数据市场2026-05-02 04:5834
2026年5月1日,香港中文大学牵头联合7所高校共同研发的动态工作流智能体评估基准数据集Claw-Eval-Live正式首发于arXiv,该数据集解决了传统大模型静态评估与真实业务工作流需求脱节的行业痛点,可为大语言模型在复杂业务场景的落地能力验证提供标准化支撑。

社区讨论
近期热门




_1769672084863.jpg)