上海交通大学本次发布的数据集Workspace-Bench,Workspace-Bench是由上海交通大学与字节跳动联合构建的大规模工作空间智能体评估基准,包含5种职业角色的真实数字工作环境,涵盖74种文件类型、20,476个文件(总容量达20GB)及其复杂的依赖关系。该数据集通过388个依赖驱动型任务(含7,399项评估细则)系统检验智能体在跨文件检索、上下文推理和自适应决策等方面的能力,并推出100任务的精简版本降低70%评估成本。其创新性体现在首次模拟真实办公场景中的文件谱系关系和语义关联,为突破当前智能体在异构文件理解与版本追踪等瓶颈问题提供标准化测试平台。





_1769672084863.jpg)