博世人工智能中心 本次发布的数据集 ReasonVQA, ReasonVQA是一个针对视觉问答任务的新数据集,它集成了结构化的百科全书知识,并通过低成本框架构建,能够生成复杂的多跳问题。该数据集包含大量问题,分为1跳、2跳和3跳三个复杂度级别,要求模型具备强大的多跳推理能力。数据集构建过程包括外部知识整合、问题生成和数据集构建三个步骤。数据集利用了Wikidata和Visual Genome等知识库和图像数据源,并通过模板生成问题和选项,同时进行了答案分布平衡和数据集分割,以减少偏差并提高模型的挑战性。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)