OpenGVLab本次发布的数据集RIVER,RIVER 是一个专为评估视频大语言模型实时交互能力而设计的基准测试数据集。该数据集通过流式视频感知技术,包含记忆、实时感知和主动响应等新颖任务。数据集包含900个训练样本,每个样本包含视频源信息(视频ID、时长、帧率)、问题信息(问题ID、问题文本、选项、正确答案)、时间参考信息以及问题类型和时间戳。数据集特别适用于视频与文本之间的交互任务,支持对模型在实时视频处理中的表现进行全面评估。根据参考事件、问题和答案的频率和时间,RIVER将在线交互任务进一步分为四个子类,包括回顾记忆(从过去提取线索)、实时感知(从当前提取线索)和主动响应(等待线索出现后尽快响应)等。
关于OpenGVLab,OpenGVLab是一个专注于计算机视觉和机器学习研究的组织。
关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)