首页 / 开源数据市场 / 正文

国科大发布AutoGUI-v2多模态GUI基准数据集为智能代理交互能力评估提供统一标尺

五号数据雷达开源数据市场2026-04-29 04:5116

中国科学院大学牵头联合相关机构于2026年4月27日在arXiv平台首发多模态GUI功能理解基准数据集AutoGUI-v2，该数据集覆盖跨6种操作系统的GUI交互标注任务，可为GUI功能理解、智能代理交互技术研发提供标准化评估支撑，助力下一代数字自主代理技术落地。

随着大模型技术的快速迭代，数字自主代理、智能RPA、跨端自动化工具等创新应用进入爆发期，智能系统对不同终端图形用户界面（GUI）的功能理解、交互逻辑识别能力，成为决定产品落地效果的核心指标。但长期以来，行业缺乏覆盖多系统、多场景的统一GUI理解能力评估基准，不同厂商的智能代理效果难以横向对比，也制约了相关技术的迭代效率。

近日，中国科学院大学联合相关机构共同构建的多模态GUI功能理解基准数据集AutoGUI-v2正式发布，于2026年4月27日首发于学术平台arXiv，成为国内首个覆盖多操作系统的分层GUI语义标注基准数据集。

据介绍，AutoGUI-v2共包含2753项跨六种操作系统的交互任务，覆盖区域级和元素级两类语义标注，数据来源涵盖ScreenSpot-Pro、OSWorld-G等多平台的真实GUI截图，具备极强的场景通用性。区别于传统数据集的人工标注模式，该数据集采用创新的VLM-人类协作流水线，可递归解析界面的分层功能区域并生成动态交互任务，重点瞄准GUI状态预测、复杂交互逻辑理解两大行业核心痛点，为下一代数字自主代理的开发提供标准化评估框架。查看AutoGUI-v2

从应用场景来看，AutoGUI-v2可广泛支撑多个领域的技术研发：在智能办公领域，可作为RPA工具的GUI识别能力评估基准，提升跨办公软件、跨系统自动化流程的适配精度；在无障碍服务领域，可辅助视障辅助工具优化GUI内容转译算法，提升障碍用户的电子设备操作体验；在数字自主代理研发领域，既可作为模型效果的评测标尺，也可作为训练数据优化大模型的跨端交互能力，支撑智能代理完成差旅预订、多平台信息汇总等复杂任务；在产品研发领域，还可辅助UI/UX团队快速测试界面交互逻辑的合理性，降低产品易用性测试成本。

作为AI训练数据要素的重要组成部分，垂直领域高质量标注数据集是AI技术落地的核心支撑。此次AutoGUI-v2的发布，填补了国内跨系统多模态GUI理解基准数据集的空白，为智能代理赛道的技术研发、效果评测提供了统一的行业标尺，有助于推动数字自主代理领域的标准化发展，加速相关技术在办公、民生、企业服务等多个场景的落地应用。

详情页内容：

社区讨论

近期热门

国科大发布AutoGUI-v2多模态GUI基准数据集 为智能代理交互能力评估提供统一标尺

详情页内容：

社区讨论

国科大发布AutoGUI-v2多模态GUI基准数据集为智能代理交互能力评估提供统一标尺