首页 / 开源数据市场 / 正文

东南大学联合微软发布CUActSpot多模态数据集补全GUI交互与计算机代理评测短板

五号数据雷达开源数据市场2026-05-14 05:3312

东南大学联合微软等机构于2026年5月13日在arXiv首发多模态交互基准数据集CUActSpot，针对现有同类数据集交互类型单一、复杂场景覆盖不足的痛点，将为GUI交互模型测试、计算机使用代理研发提供标准化数据支撑。

随着大模型技术向具身交互、垂直场景落地延伸，计算机使用代理（可自动执行电脑操作的智能Agent）已成为AI领域的热门赛道，但行业长期面临基准测试数据集交互类型单一、复杂场景覆盖不足的痛点，制约了相关模型的能力迭代与落地验证。

2026年5月13日，东南大学联合微软等机构共同构建的CUActSpot数据集正式首发于arXiv平台，瞄准GUI交互基准测试、计算机使用代理两大核心应用领域，填补了多模态复杂交互评测数据集的市场空白。

据公开信息显示，CUActSpot数据集共包含206个经过人工标注、多轮迭代筛选的高质量样本，覆盖GUI界面、纯文本、结构化表格、创作画布、自然图像五大主流模态，支持点击、拖拽、绘制三类高频交互操作的能力评测，数据标注质量经过多轮校验，可适配不同复杂度的模型测试需求。

此前行业内同类基准数据集普遍存在交互场景简单、覆盖模态单一的问题，仅能验证模型的基础点击操作能力，无法适配文档编辑、图像处理、表格整理等真实办公场景下的复杂操作评测需求，CUActSpot的推出正是针对这一行业痛点，为计算机使用代理的动作定位研究提供标准化的测试底座。

从应用方向来看，该数据集未来可广泛应用于多个领域：在智能办公赛道，可用于自动化办公Agent的能力评测，验证模型在文档排版、数据整理、图片处理等场景下的操作准确率；在无障碍服务领域，可支撑面向视障、肢体障碍群体的智能GUI交互工具研发，提升辅助工具的操作可靠性；在GUI产品优化领域，可帮助软件厂商测试界面交互逻辑的合理性，降低普通用户的操作门槛。

作为人工智能领域核心的生产要素，高质量垂直场景标注数据集是大模型技术落地的核心支撑，CUActSpot的发布不仅完善了GUI交互与计算机代理领域的评测体系，也将进一步推动相关技术从实验室走向真实应用场景，助力数字办公、智慧服务等领域的数字化升级。

查看CUActSpot

详情页内容：

社区讨论

近期热门

东南大学联合微软发布CUActSpot多模态数据集 补全GUI交互与计算机代理评测短板

详情页内容：

社区讨论

东南大学联合微软发布CUActSpot多模态数据集补全GUI交互与计算机代理评测短板