首尔国立大学 本次发布的数据集 Atomic Visual Skills Dataset (AVSD), AVSD是一个评估视觉语言模型(VLMs)在基本、不可分割的视觉感知技能方面的数据集。该数据集由首尔国立大学、加利福尼亚大学洛杉矶分校、威斯康星大学麦迪逊分校和Google DeepMind的研究团队创建,旨在解决VLMs在处理简单视觉任务时的不足。数据集包含36种原子视觉技能,涵盖了高中及以下水平的二维欧几里得几何学中的图解。AVSD由三个子数据集组成:AVSD-h,手工制作的数据集;AVSD-s,程序生成的模拟数据集;AVSD-c,通过ControlNet进行风格和纹理增强的模拟数据集。这些子数据集提供了超过13,000个问题,用于评估VLMs在原子视觉技能方面的能力。AVSD旨在帮助研究人员训练和评估VLMs,以解决多模态感知和推理任务中需要精确理解视觉输入的问题。
查看Atomic Visual Skills Dataset (AVSD)
关于 首尔国立大学 , 首尔国立大学是韩国的一所著名研究型大学,位于韩国首尔特别市,是韩国高等教育和研究领域的领先机构之一。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)