随着大模型技术的快速迭代,数字自主代理、智能RPA、跨端自动化工具等创新应用进入爆发期,智能系统对不同终端图形用户界面(GUI)的功能理解、交互逻辑识别能力,成为决定产品落地效果的核心指标。但长期以来,行业缺乏覆盖多系统、多场景的统一GUI理解能力评估基准,不同厂商的智能代理效果难以横向对比,也制约了相关技术的迭代效率。
近日,中国科学院大学联合相关机构共同构建的多模态GUI功能理解基准数据集AutoGUI-v2正式发布,于2026年4月27日首发于学术平台arXiv,成为国内首个覆盖多操作系统的分层GUI语义标注基准数据集。
据介绍,AutoGUI-v2共包含2753项跨六种操作系统的交互任务,覆盖区域级和元素级两类语义标注,数据来源涵盖ScreenSpot-Pro、OSWorld-G等多平台的真实GUI截图,具备极强的场景通用性。区别于传统数据集的人工标注模式,该数据集采用创新的VLM-人类协作流水线,可递归解析界面的分层功能区域并生成动态交互任务,重点瞄准GUI状态预测、复杂交互逻辑理解两大行业核心痛点,为下一代数字自主代理的开发提供标准化评估框架。查看AutoGUI-v2
从应用场景来看,AutoGUI-v2可广泛支撑多个领域的技术研发:在智能办公领域,可作为RPA工具的GUI识别能力评估基准,提升跨办公软件、跨系统自动化流程的适配精度;在无障碍服务领域,可辅助视障辅助工具优化GUI内容转译算法,提升障碍用户的电子设备操作体验;在数字自主代理研发领域,既可作为模型效果的评测标尺,也可作为训练数据优化大模型的跨端交互能力,支撑智能代理完成差旅预订、多平台信息汇总等复杂任务;在产品研发领域,还可辅助UI/UX团队快速测试界面交互逻辑的合理性,降低产品易用性测试成本。
作为AI训练数据要素的重要组成部分,垂直领域高质量标注数据集是AI技术落地的核心支撑。此次AutoGUI-v2的发布,填补了国内跨系统多模态GUI理解基准数据集的空白,为智能代理赛道的技术研发、效果评测提供了统一的行业标尺,有助于推动数字自主代理领域的标准化发展,加速相关技术在办公、民生、企业服务等多个场景的落地应用。





_1769672084863.jpg)