首页 / 开源数据市场 / 正文

Amazon Web Services发布sop-bench数据集，应用在工业流程自动化、LLM智能代理评估领域

五号数据雷达开源数据市场2026-05-22 05:1610

sop-bench是Amazon Web Services发布的数据集，于2026-05-21首发在HuggingFace应用于工业流程自动化、LLM智能代理评估领域

Amazon Web Services本次发布的数据集sop-bench，SOP-Bench是一个用于评估基于大语言模型（LLM）的智能代理在复杂、多步骤工业标准操作程序（SOP）上性能的综合基准测试集。该数据集旨在弥补现有基准测试与真实世界程序复杂性之间的差距。数据内容与构成：SOP-Bench基于12个工业领域（包括医疗保健、物流、金融、内容审核、供应链、网络安全、航空等）的真实工业程序构建，包含超过2000个任务。数据集由14个独立的基准配置（子集）组成，每个配置代表一个特定的工业领域，例如：飞机检查（aircraft_inspection）、内容标记（content_flagging）、客户服务（customer_service）、危险品分类（dangerous_goods）、电子邮件意图分类（email_intent）、企业身份验证（know_your_business）、订单履行（order_fulfillment）、患者登记（patient_intake）、推荐滥用检测（referral_abuse_detection_v1/v2）、流量欺骗检测（traffic_spoofing_detection）、视频标注（video_annotation）、视频分类（video_classification）和仓库包裹检查（warehouse_package_inspection）。每个基准配置包含以下核心文件：包含真实输出结果的测试集（test_set_with_outputs.csv）、不含输出结果的测试集（test_set_without_outputs.csv，用于盲评估）、自然语言编写的标准操作程序文档（sop.txt）、可供代理调用的Python工具实现（tools.py）、JSON格式的工具规范（toolspecs.json）以及定义输入/输出列的元数据文件（metadata.json）。数据字段因配置而异，例如客户服务配置包含account_id、service_area_code等输入列和final_resolution_status输出列。数据规模：数据集规模在1K到10K之间，具体包含超过2000个任务，每个任务涉及10-50多个决策点的顺序推理。任务复杂度评级在7/10到10/10之间。适用任务与应用场景：该数据集专为评估LLM代理在需要多步骤推理、工具协调、隐式知识应用和模糊性处理的工业自动化任务中的性能而设计。支持的任务类别包括文本分类和问答。数据集配套完整的评估框架，支持函数调用（function_calling）和ReAct两种代理架构，并提供任务成功率（TSR）、执行完成率（ECR）、条件任务成功率（C-TSR）和工具准确率等评估指标。数据集由人类专家根据真实工业程序编写SOP，并通过人机协作框架创建测试用例，确保覆盖边界情况和现实复杂性。真实输出由人类专家遵循SOP并使用模拟工具生成。

查看sop-bench

Dataset card内容：

Files and versions内容：

社区讨论

近期热门