上海大学 本次发布的数据集 ViHallu-Instruction, ViHallu-Instruction数据集由上海大学的研究团队创建,旨在解决大型视觉语言模型(LVLMs)中视觉幻觉问题。该数据集包含经过精心策划的视觉变化图像,通过引入可控的视觉变化,同时保持整体图像结构,帮助LVLMs更好地理解细粒度的视觉内容。数据集还包含了高质量的指令数据,用于指导LVLMs进行细粒度视觉语义对齐。ViHallu-Instruction数据集的创建过程结合了文本引导和分割掩码控制,生成了符合指定标题并保持原始图像全局结构的视觉变化图像。该数据集适用于LVLMs的幻觉缓解和视觉语义对齐研究,旨在提升LVLMs在视觉理解方面的性能。
关于 上海大学 , 上海大学是位于中国上海市的一所综合性大学,成立于1922年,是中国教育部直属的全国重点大学之一。学校设有多个学院和研究机构,涵盖了理、工、文、法、经济、管理、教育、艺术等多个学科领域。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)