Video-MME - 视频分析多模态大模型评估基准数据集
github2024-06-10 收录15330
资源简介:
Video-MME是北京大学、香港大学等6所高校联手,发布的首个专为视频分析设计的多模态大模型评估基准。该数据集包含900个视频,总时长达256小时,研究人员通过反复观看视频内容,手动选择和注释共设计了2,700个高质量的多选题。数据集涵盖6大视觉领域,包括知识、电影与电视、体育竞赛、艺术表演、生活记录和多语言,并进一步细分为天文学、科技、纪录片等30个类别,视频长度从11秒到1小时不等。此外,Video-MME还整合字幕和音频轨道,增强了对视频理解的多模态输入分析。更难能可贵的是,Video-MME中所有数据,包括问答、视频、字幕和音频,都是手工收集和整理的,确保了该基准的高质量。该数据集的创建不仅为研究人员提供了一个富有挑战性的测试基准,也为研究外部信息对视频理解性能的影响提供了宝贵的资源。
原始地址:
立即探测
提供机构:
USTC, XMU, HKU, PKU, CUHK, ECNU
创建时间:
2024-06-07




_1769672084863.jpg)