five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Google DeepMind 发布 MINERVA 数据集, 应用在 视频推理、多模态模型 领域

五号数据雷达开源数据市场2025-05-03 07:2893
MINERVA 是 Google DeepMind 发布的数据集,于 2025-05-02 首发在 arXiv 应用于 视频推理、多模态模型 领域

Google DeepMind 本次发布的数据集 MINERVA, MINERVA是一个用于现代多模态模型的新型视频推理数据集。每个问题都附带5个答案选项以及详细的、手工制作的推理轨迹。数据集是多模态的,视频领域和长度多样化,包含复杂的多步问题。广泛的基准测试表明,我们的数据集对前沿开源和专有模型提出了挑战。我们进行了细粒度的错误分析,以确定各种模型中的常见失败模式,并创建了一个推理错误的分类法。我们使用这个分类法来探索人类和LLM-asa-judge方法对视频推理轨迹的评分,并发现失败模式主要与时间定位相关,其次是视觉感知错误。数据集、问题、答案候选和推理轨迹将在https://github.com/googledeepmind/neptune?tab=readme-ov-file#minerva公开提供。

查看MINERVA

关于 Google DeepMind , Google DeepMind 是一家位于英国的人工智能公司,专注于研究机器学习、神经网络和人工智能技术,其目标是解决 intelligence、medicine 和 robotics 等领域的难题。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们