Kuhnle and Copestake 本次发布的数据集 ShapeWorld, 该数据集名是一个可配置的生成系统,旨在生成带有伴随标题和一致性值的抽象、视觉基础语言数据图像,这些一致性值表示标题与图像的关联真实性。该数据集包含了多种量词,并且是为了促进类似于心理语言学研究中的实验而生成,这些实验专注于对如“大多数”这类量词的解释。图像中最多包含15个随机位置排列的对象。该数据集适用于视觉问答(Vqa)和图像标题一致性任务。
README 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)