瑞士联邦理工学院 (EPFL) 本次发布的数据集 VinaBench, VinaBench数据集由瑞士联邦理工学院、日本索尼集团和美国卡内基梅隆大学共同创建,包含了约25000对视觉和文本叙事样本。该数据集通过在视觉叙事样本中注释常见的常识和话语约束,为视觉叙事生成模型的训练提供了系统的支撑。数据集的内容来源于多个高级视觉叙事数据集,涵盖了多样的角色和场景。VinaBench不仅标注了视觉细节与文本叙事实体之间的常识链接,还注解了一系列全局和场景特定的特征,以揭示视觉话语的动态,促进视觉叙事生成的一致性。
关于 瑞士联邦理工学院 (EPFL) , 瑞士联邦理工学院(École Polytechnique Fédérale de Lausanne,简称EPFL)是一所世界顶尖的工程和科学技术大学,位于瑞士洛桑,是欧洲最著名的理工大学之一,以其在科学和工程领域的卓越教育和研究闻名。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)