葡萄牙里斯本大学高级技术研究所 本次发布的数据集 Movie Facts and Fibs (MF2), MF2数据集是一个用于评估模型对完整电影(时长50-170分钟)理解程度的新基准。该数据集包含超过50部完整长度的、开放许可的电影,每部电影都配有一套手动构建的声明对——一个真实的(事实)和一个看似合理但错误的(谎言),共计超过850对。这些声明针对电影中的核心叙事元素,如角色动机和情绪、因果链和事件顺序,并引用人们无需重看电影就能回忆起的重要时刻。与多项选择题格式不同,我们采用二元声明评估协议:对于每对声明,模型必须正确识别出真实和错误的声明。这减少了答案排序等偏差,并能够更精确地评估推理能力。我们的实验表明,无论是开放权重还是封闭的顶级模型,其性能都远低于人类,突显了人类在记忆和推理关键叙事信息方面的优越能力,这是当前视觉-语言模型所缺乏的。
Dataset card 内容:
Files and versions 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)