Google DeepMind 本次发布的数据集 MINERVA, MINERVA是一个用于现代多模态模型的新型视频推理数据集。每个问题都附带5个答案选项以及详细的、手工制作的推理轨迹。数据集是多模态的,视频领域和长度多样化,包含复杂的多步问题。广泛的基准测试表明,我们的数据集对前沿开源和专有模型提出了挑战。我们进行了细粒度的错误分析,以确定各种模型中的常见失败模式,并创建了一个推理错误的分类法。我们使用这个分类法来探索人类和LLM-asa-judge方法对视频推理轨迹的评分,并发现失败模式主要与时间定位相关,其次是视觉感知错误。数据集、问题、答案候选和推理轨迹将在https://github.com/googledeepmind/neptune?tab=readme-ov-file#minerva公开提供。
关于 Google DeepMind , Google DeepMind 是一家位于英国的人工智能公司,专注于研究机器学习、神经网络和人工智能技术,其目标是解决 intelligence、medicine 和 robotics 等领域的难题。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)