随着大模型技术向具身交互、垂直场景落地延伸,计算机使用代理(可自动执行电脑操作的智能Agent)已成为AI领域的热门赛道,但行业长期面临基准测试数据集交互类型单一、复杂场景覆盖不足的痛点,制约了相关模型的能力迭代与落地验证。
2026年5月13日,东南大学联合微软等机构共同构建的CUActSpot数据集正式首发于arXiv平台,瞄准GUI交互基准测试、计算机使用代理两大核心应用领域,填补了多模态复杂交互评测数据集的市场空白。
据公开信息显示,CUActSpot数据集共包含206个经过人工标注、多轮迭代筛选的高质量样本,覆盖GUI界面、纯文本、结构化表格、创作画布、自然图像五大主流模态,支持点击、拖拽、绘制三类高频交互操作的能力评测,数据标注质量经过多轮校验,可适配不同复杂度的模型测试需求。
此前行业内同类基准数据集普遍存在交互场景简单、覆盖模态单一的问题,仅能验证模型的基础点击操作能力,无法适配文档编辑、图像处理、表格整理等真实办公场景下的复杂操作评测需求,CUActSpot的推出正是针对这一行业痛点,为计算机使用代理的动作定位研究提供标准化的测试底座。
从应用方向来看,该数据集未来可广泛应用于多个领域:在智能办公赛道,可用于自动化办公Agent的能力评测,验证模型在文档排版、数据整理、图片处理等场景下的操作准确率;在无障碍服务领域,可支撑面向视障、肢体障碍群体的智能GUI交互工具研发,提升辅助工具的操作可靠性;在GUI产品优化领域,可帮助软件厂商测试界面交互逻辑的合理性,降低普通用户的操作门槛。
作为人工智能领域核心的生产要素,高质量垂直场景标注数据集是大模型技术落地的核心支撑,CUActSpot的发布不仅完善了GUI交互与计算机代理领域的评测体系,也将进一步推动相关技术从实验室走向真实应用场景,助力数字办公、智慧服务等领域的数字化升级。





_1769672084863.jpg)