北京邮电大学 本次发布的数据集 MCPWorld, MCPWorld是一个针对API、GUI和混合桌面计算机使用代理(CUA)的统一基准测试平台。它使用“白盒应用”,即那些具有源代码可用性并且可以根据需要修改/重新编译的应用程序,例如添加MCP支持。这种设计选择不仅极大地扩展了CUA的设计空间,例如应用程序功能如何作为CUA可调用的API暴露/提取,而且还允许MCPWorld通过直接监控应用程序行为的技术(如动态代码检测)来编程方式验证任务完成情况,提供与特定代理实现或UI状态无关的鲁棒、准确的CUA评估。目前,MCPWorld包括201个精心策划和注释的用户任务,涵盖了多样化的用例和难度级别。MCPWorld也完全容器化,支持GPU加速,以适应不同的操作系统/硬件环境。我们的初步实验,使用一个代表性的LLM-powered CUA框架,实现了75.12%的任务完成准确性,同时提供了利用MCP进行代理自动化的实际有效性的初步证据。总的来说,我们预计MCPWorld将促进和标准化下一代计算机使用代理的基准测试,这些代理可以利用丰富的外部工具。
README 内容:
关于 北京邮电大学 , 北京邮电大学是中国一所以信息技术为特色,工学、理学、管理学、经济学、文学、法学、教育学等多学科协调发展的全国重点大学,是中国“211工程”和“双一流”建设高校之一。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)