five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

国科大发布AutoGUI-v2多模态GUI基准数据集 为智能代理交互能力评估提供统一标尺

五号数据雷达开源数据市场2026-04-29 04:5116
中国科学院大学牵头联合相关机构于2026年4月27日在arXiv平台首发多模态GUI功能理解基准数据集AutoGUI-v2,该数据集覆盖跨6种操作系统的GUI交互标注任务,可为GUI功能理解、智能代理交互技术研发提供标准化评估支撑,助力下一代数字自主代理技术落地。

随着大模型技术的快速迭代,数字自主代理、智能RPA、跨端自动化工具等创新应用进入爆发期,智能系统对不同终端图形用户界面(GUI)的功能理解、交互逻辑识别能力,成为决定产品落地效果的核心指标。但长期以来,行业缺乏覆盖多系统、多场景的统一GUI理解能力评估基准,不同厂商的智能代理效果难以横向对比,也制约了相关技术的迭代效率。

近日,中国科学院大学联合相关机构共同构建的多模态GUI功能理解基准数据集AutoGUI-v2正式发布,于2026年4月27日首发于学术平台arXiv,成为国内首个覆盖多操作系统的分层GUI语义标注基准数据集。

据介绍,AutoGUI-v2共包含2753项跨六种操作系统的交互任务,覆盖区域级和元素级两类语义标注,数据来源涵盖ScreenSpot-Pro、OSWorld-G等多平台的真实GUI截图,具备极强的场景通用性。区别于传统数据集的人工标注模式,该数据集采用创新的VLM-人类协作流水线,可递归解析界面的分层功能区域并生成动态交互任务,重点瞄准GUI状态预测、复杂交互逻辑理解两大行业核心痛点,为下一代数字自主代理的开发提供标准化评估框架。查看AutoGUI-v2

从应用场景来看,AutoGUI-v2可广泛支撑多个领域的技术研发:在智能办公领域,可作为RPA工具的GUI识别能力评估基准,提升跨办公软件、跨系统自动化流程的适配精度;在无障碍服务领域,可辅助视障辅助工具优化GUI内容转译算法,提升障碍用户的电子设备操作体验;在数字自主代理研发领域,既可作为模型效果的评测标尺,也可作为训练数据优化大模型的跨端交互能力,支撑智能代理完成差旅预订、多平台信息汇总等复杂任务;在产品研发领域,还可辅助UI/UX团队快速测试界面交互逻辑的合理性,降低产品易用性测试成本。

作为AI训练数据要素的重要组成部分,垂直领域高质量标注数据集是AI技术落地的核心支撑。此次AutoGUI-v2的发布,填补了国内跨系统多模态GUI理解基准数据集的空白,为智能代理赛道的技术研发、效果评测提供了统一的行业标尺,有助于推动数字自主代理领域的标准化发展,加速相关技术在办公、民生、企业服务等多个场景的落地应用。

详情页内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们