越南国立大学胡志明市分校自然科学大学 本次发布的数据集 OpenEvents V1, OpenEvents V1是一个大规模的基准数据集,旨在推动以事件为中心的视觉语言理解的发展。不同于传统的图像描述和检索数据集,OpenEvents V1专注于通过两个主要任务进行上下文和时态定位:(1)生成丰富的事件感知图像描述;(2)基于叙事风格文本查询检索事件相关的图像。该数据集包含来自CNN和The Guardian的超过20万篇新闻文章和40万张相关图像,涵盖了多个领域和时间跨度。我们为这两个任务提供了广泛的基线结果和标准化的评估协议。OpenEvents V1为开发能够对复杂现实世界事件进行深度推理的多模态模型奠定了坚实的基础。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)