Video-MME - 视频分析多模态大模型评估基准数据集|视频分析数据集|多模态评估数据集

Video-MME - 视频分析多模态大模型评估基准数据集

github2024-06-10 收录15330

视频分析

多模态评估

资源简介：

Video-MME是北京大学、香港大学等6所高校联手，发布的首个专为视频分析设计的多模态大模型评估基准。该数据集包含900个视频，总时长达256小时，研究人员通过反复观看视频内容，手动选择和注释共设计了2,700个高质量的多选题。数据集涵盖6大视觉领域，包括知识、电影与电视、体育竞赛、艺术表演、生活记录和多语言，并进一步细分为天文学、科技、纪录片等30个类别，视频长度从11秒到1小时不等。此外，Video-MME还整合字幕和音频轨道，增强了对视频理解的多模态输入分析。更难能可贵的是，Video-MME中所有数据，包括问答、视频、字幕和音频，都是手工收集和整理的，确保了该基准的高质量。该数据集的创建不仅为研究人员提供了一个富有挑战性的测试基准，也为研究外部信息对视频理解性能的影响提供了宝贵的资源。

原始地址：

立即探测

提供机构：

USTC, XMU, HKU, PKU, CUHK, ECNU

创建时间：

2024-06-07