伊朗科技大学 本次发布的数据集 IllusionMNIST, IllusionFashionMNIST, IllusionAnimals, IllusionChar, 本研究引入了四个专门用于评估多模态模型在视觉错觉识别和解释能力的数据集:IllusionMNIST、IllusionFashionMNIST、IllusionAnimals和IllusionChar。这些数据集包含训练集和测试集,旨在全面评估模型的性能。数据集通过结合LLM生成的描述和ControlNet模型生成,确保了数据集的多样性和质量。数据集的创建过程包括生成场景描述、合成图像以及通过人工审核确保数据集的可靠性。这些数据集主要应用于视觉问答任务,旨在提高多模态模型对视觉错觉的理解和解释能力,从而增强模型的鲁棒性和人类类似的视觉理解能力。
查看IllusionMNIST, IllusionFashionMNIST, IllusionAnimals, IllusionChar
Dataset card 内容:
Files and versions 内容:
关于 伊朗科技大学 , 伊朗科技大学是伊朗的一所著名科技大学,提供包括计算机工程在内的多个工程学科的教育和研究。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)