Amazon Web Services本次发布的数据集sop-bench,SOP-Bench是一个用于评估基于大语言模型(LLM)的智能代理在复杂、多步骤工业标准操作程序(SOP)上性能的综合基准测试集。该数据集旨在弥补现有基准测试与真实世界程序复杂性之间的差距。 数据内容与构成:SOP-Bench基于12个工业领域(包括医疗保健、物流、金融、内容审核、供应链、网络安全、航空等)的真实工业程序构建,包含超过2000个任务。数据集由14个独立的基准配置(子集)组成,每个配置代表一个特定的工业领域,例如:飞机检查(aircraft_inspection)、内容标记(content_flagging)、客户服务(customer_service)、危险品分类(dangerous_goods)、电子邮件意图分类(email_intent)、企业身份验证(know_your_business)、订单履行(order_fulfillment)、患者登记(patient_intake)、推荐滥用检测(referral_abuse_detection_v1/v2)、流量欺骗检测(traffic_spoofing_detection)、视频标注(video_annotation)、视频分类(video_classification)和仓库包裹检查(warehouse_package_inspection)。 每个基准配置包含以下核心文件:包含真实输出结果的测试集(test_set_with_outputs.csv)、不含输出结果的测试集(test_set_without_outputs.csv,用于盲评估)、自然语言编写的标准操作程序文档(sop.txt)、可供代理调用的Python工具实现(tools.py)、JSON格式的工具规范(toolspecs.json)以及定义输入/输出列的元数据文件(metadata.json)。数据字段因配置而异,例如客户服务配置包含account_id、service_area_code等输入列和final_resolution_status输出列。 数据规模:数据集规模在1K到10K之间,具体包含超过2000个任务,每个任务涉及10-50多个决策点的顺序推理。任务复杂度评级在7/10到10/10之间。 适用任务与应用场景:该数据集专为评估LLM代理在需要多步骤推理、工具协调、隐式知识应用和模糊性处理的工业自动化任务中的性能而设计。支持的任务类别包括文本分类和问答。数据集配套完整的评估框架,支持函数调用(function_calling)和ReAct两种代理架构,并提供任务成功率(TSR)、执行完成率(ECR)、条件任务成功率(C-TSR)和工具准确率等评估指标。 数据集由人类专家根据真实工业程序编写SOP,并通过人机协作框架创建测试用例,确保覆盖边界情况和现实复杂性。真实输出由人类专家遵循SOP并使用模拟工具生成。





_1769672084863.jpg)