five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

发布 Mobile-Bench-v2 数据集, 应用在 移动代理、视觉语言模型 领域

五号数据雷达开源数据市场2025-10-07 03:5449
Mobile-Bench-v2 是 发布的数据集,于 2025-10-07 首发在 arXiv 应用于 移动代理、视觉语言模型 领域

本次发布的数据集 Mobile-Bench-v2, 该数据集名为Mobile-Bench-v2,旨在通过多种任务划分来评估基于视觉语言模型(VLM)的移动代理的表现,这些任务划分涵盖了常见的、含噪声的以及模糊的指令,以检验它们在动态环境中的性能。数据集还包括特定的划分,以评估代理在处理噪声、模糊指令和主动交互方面的能力,同时引入了成功率、步骤效率、准确性和类型匹配等评价指标。此外,该数据集根据Mobile3M的筛选和注释进行了规模划分,包括Random-800的子集划分。其任务重点在于评估移动代理在处理不同类型指令下的图形用户界面(GUI)任务的多路径表现。

查看Mobile-Bench-v2

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 , 国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们