five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

北京邮电大学 发布 MCPWorld 数据集, 应用在 计算机使用代理、基准测试 领域

五号数据雷达开源数据市场2025-06-11 09:38138
MCPWorld 是 北京邮电大学 发布的数据集,于 2025-06-09 首发在 arXiv 应用于 计算机使用代理、基准测试 领域

北京邮电大学 本次发布的数据集 MCPWorld, MCPWorld是一个针对API、GUI和混合桌面计算机使用代理(CUA)的统一基准测试平台。它使用“白盒应用”,即那些具有源代码可用性并且可以根据需要修改/重新编译的应用程序,例如添加MCP支持。这种设计选择不仅极大地扩展了CUA的设计空间,例如应用程序功能如何作为CUA可调用的API暴露/提取,而且还允许MCPWorld通过直接监控应用程序行为的技术(如动态代码检测)来编程方式验证任务完成情况,提供与特定代理实现或UI状态无关的鲁棒、准确的CUA评估。目前,MCPWorld包括201个精心策划和注释的用户任务,涵盖了多样化的用例和难度级别。MCPWorld也完全容器化,支持GPU加速,以适应不同的操作系统/硬件环境。我们的初步实验,使用一个代表性的LLM-powered CUA框架,实现了75.12%的任务完成准确性,同时提供了利用MCP进行代理自动化的实际有效性的初步证据。总的来说,我们预计MCPWorld将促进和标准化下一代计算机使用代理的基准测试,这些代理可以利用丰富的外部工具。

查看MCPWorld

README 内容: 

 

关于 北京邮电大学 , 北京邮电大学是中国一所以信息技术为特色,工学、理学、管理学、经济学、文学、法学、教育学等多学科协调发展的全国重点大学,是中国“211工程”和“双一流”建设高校之一。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们