首页 / 开源数据市场 / 正文

首尔国立大学发布 Atomic Visual Skills Dataset (AVSD) 数据集, 应用在视觉语言模型、几何学教育领域

五号数据雷达开源数据市场2025-05-28 07:3968

Atomic Visual Skills Dataset (AVSD) 是首尔国立大学发布的数据集,于 2025-05-26 首发在 arXiv 应用于视觉语言模型、几何学教育领域

首尔国立大学本次发布的数据集 Atomic Visual Skills Dataset (AVSD), AVSD是一个评估视觉语言模型(VLMs)在基本、不可分割的视觉感知技能方面的数据集。该数据集由首尔国立大学、加利福尼亚大学洛杉矶分校、威斯康星大学麦迪逊分校和Google DeepMind的研究团队创建，旨在解决VLMs在处理简单视觉任务时的不足。数据集包含36种原子视觉技能，涵盖了高中及以下水平的二维欧几里得几何学中的图解。AVSD由三个子数据集组成：AVSD-h，手工制作的数据集；AVSD-s，程序生成的模拟数据集；AVSD-c，通过ControlNet进行风格和纹理增强的模拟数据集。这些子数据集提供了超过13,000个问题，用于评估VLMs在原子视觉技能方面的能力。AVSD旨在帮助研究人员训练和评估VLMs，以解决多模态感知和推理任务中需要精确理解视觉输入的问题。

查看Atomic Visual Skills Dataset (AVSD)

关于首尔国立大学 , 首尔国立大学是韩国的一所著名研究型大学，位于韩国首尔特别市，是韩国高等教育和研究领域的领先机构之一。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

首尔国立大学 发布 Atomic Visual Skills Dataset (AVSD) 数据集, 应用在 视觉语言模型、几何学教育 领域

社区讨论

首尔国立大学发布 Atomic Visual Skills Dataset (AVSD) 数据集, 应用在视觉语言模型、几何学教育领域