宾夕法尼亚州立大学 本次发布的数据集 HRScene, HRScene是一个用于高分辨率图像(HRI)理解的新颖统一基准,包含丰富的场景。它包含了25个真实世界的数据集和2个合成诊断数据集,分辨率范围从1,024 × 1,024到35,503 × 26,627。HRScene由10名研究生级别的标注员收集和重新标注,涵盖了从显微镜到放射学图像、街景、长距离照片和望远镜图像的25个场景。它包括真实世界对象的高分辨率图像、扫描文档和复合多图像。两个诊断评估数据集是通过将目标图像与金标准答案和干扰图像以不同顺序组合来合成的,以评估模型如何利用HRI中的区域。我们进行了广泛的实验,涉及28个VLMs,包括Gemini 2.0 Flash和GPT-4o。HRScene上的实验表明,当前的VLMs在现实世界任务上平均准确率约为50%,揭示了HRI理解中的重大差距。合成数据集上的结果表明,VLMs难以有效利用HRI区域,显示出显著的区域分化和迷失在中部的问题,为未来的研究提供了启示。
关于 宾夕法尼亚州立大学 , 宾夕法尼亚州立大学是一所位于美国宾夕法尼亚州的著名公立研究型大学,以其在工程、商科和生命科学等领域的卓越研究和教学质量而闻名。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)