哈尔滨工业大学 本次发布的数据集 XT-VQA, XT-VQA是一个用于评估跨语言文本丰富视觉问答的基准数据集,由五个现有数据集和一个新收集的XPaperQA数据集组成。该数据集涵盖了多种视觉信息类型,包括图表、场景文本和文档,特别关注双语文献。XPaperQA数据集包含4436条高质量的问题-答案对,通过先进的Gemini-Pro模型生成,并经过严格的过滤和质量审查。XT-VQA数据集的创建旨在解决跨语言视觉理解中的挑战,特别是在图像文本与问题语言不一致的情况下,评估大型视觉语言模型的性能。
关于 哈尔滨工业大学 , 哈尔滨工业大学是中国的一所著名高等学府,位于黑龙江省哈尔滨市,以工科为主,涵盖理、工、管、文、经、法等多个学科领域,是中国首批进入国家‘211工程’和‘985工程’重点建设的高校之一。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)