本次发布的数据集 Mobile-Bench-v2, 该数据集名为Mobile-Bench-v2,旨在通过多种任务划分来评估基于视觉语言模型(VLM)的移动代理的表现,这些任务划分涵盖了常见的、含噪声的以及模糊的指令,以检验它们在动态环境中的性能。数据集还包括特定的划分,以评估代理在处理噪声、模糊指令和主动交互方面的能力,同时引入了成功率、步骤效率、准确性和类型匹配等评价指标。此外,该数据集根据Mobile3M的筛选和注释进行了规模划分,包括Random-800的子集划分。其任务重点在于评估移动代理在处理不同类型指令下的图形用户界面(GUI)任务的多路径表现。
Dataset card 内容:
Files and versions 内容:
关于 , 国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)