当前多模态大模型正加速从文本、图像交互向三维、视频等复杂场景延伸,而具备时序标注、问答配对的高质量视频数据集,始终是制约多模态模型视频理解能力提升的核心瓶颈之一。此前行业内公开的视频类数据集多存在场景覆盖单一、标注颗粒度不足、问答配对逻辑简单等问题,难以支撑大模型对复杂时序内容的推理、多轮交互问答等能力训练。在此背景下,InternLM正式发布的CapRL-Video-QA-20K数据集,恰好填补了这一细分领域的供给缺口。
InternLM本次发布的数据集CapRL-Video-QA-20K,CapRL-Video-QA-20K.jsonl是一个用于视频问答(Video QA)任务的数据集,包含约20,000个样本。该数据集以JSONL格式组织,每个样本提供视频文件的相对路径,这些视频来源于HuggingFace数据集lmms-lab/LLaVA-Video-178K的两个子集:YouTube视频(来自0_30_s_youtube_v0_1子目录)覆盖日常消费、文娱、生活服务等多元通用场景;学术视频(来自0_30_s_academic_v0_1子目录,可能包含Charades、NextQA、activitynet等来源)覆盖人机交互、行为识别、活动分析等专业研究场景,兼顾了数据集的通用性与专业研究价值。数据集旨在支持视频理解、问答或相关多模态任务,用户需根据README中的路径设置指南,将JSONL中的相对路径与本地视频文件根目录结合以访问实际视频内容。视频文件以MP4格式存储,需从原始数据集下载并解压特定压缩归档获取。
作为专门面向视频问答任务打造的数据集,CapRL-Video-QA-20K可支持多模态大模型研发团队开展多维度技术探索:在模型训练侧,可用于提升大模型对视频时序逻辑的推理能力、跨模态内容的关联理解能力、开放式视频问答的准确性;在评测侧,可作为标准化基准,用于不同多模态模型视频理解能力的横向对比。从下游落地场景来看,基于该数据集训练优化的多模态模型,可广泛应用于智能视频内容检索、教育场景视频知识点自动答疑、安防领域异常事件回溯查询、文娱内容智能审核、电商直播内容结构化分析等多个领域,具备极高的产业落地价值。
从数据要素产业发展的视角来看,高质量AI训练数据集是人工智能产业发展的核心底座,CapRL-Video-QA-20K的发布,进一步丰富了国内多模态训练数据的供给体系,降低了中小研发团队的视频类标注数据采集成本,对于推动多模态大模型技术迭代、加速视频类AI应用落地、完善数据要素市场在AI训练数据赛道的生态布局均具备积极意义。





_1769672084863.jpg)