首页 / 开源数据市场 / 正文

InternLM发布CapRL-Video-QA-20K数据集 2万标注样本赋能多模态视频理解产业

五号数据雷达开源数据市场2026-05-23 03:5010

开源大模型生态项目InternLM于2026年5月22日在Hugging Face平台首发CapRL-Video-QA-20K视频问答数据集，该数据集包含2万条标注样本，覆盖通用与专业类短视频场景，将为多模态大模型的视频理解、视频问答等任务提供高质量训练与评测基准。

当前多模态大模型正加速从文本、图像交互向三维、视频等复杂场景延伸，而具备时序标注、问答配对的高质量视频数据集，始终是制约多模态模型视频理解能力提升的核心瓶颈之一。此前行业内公开的视频类数据集多存在场景覆盖单一、标注颗粒度不足、问答配对逻辑简单等问题，难以支撑大模型对复杂时序内容的推理、多轮交互问答等能力训练。在此背景下，InternLM正式发布的CapRL-Video-QA-20K数据集，恰好填补了这一细分领域的供给缺口。

InternLM本次发布的数据集CapRL-Video-QA-20K，CapRL-Video-QA-20K.jsonl是一个用于视频问答（Video QA）任务的数据集，包含约20,000个样本。该数据集以JSONL格式组织，每个样本提供视频文件的相对路径，这些视频来源于HuggingFace数据集lmms-lab/LLaVA-Video-178K的两个子集：YouTube视频（来自0_30_s_youtube_v0_1子目录）覆盖日常消费、文娱、生活服务等多元通用场景；学术视频（来自0_30_s_academic_v0_1子目录，可能包含Charades、NextQA、activitynet等来源）覆盖人机交互、行为识别、活动分析等专业研究场景，兼顾了数据集的通用性与专业研究价值。数据集旨在支持视频理解、问答或相关多模态任务，用户需根据README中的路径设置指南，将JSONL中的相对路径与本地视频文件根目录结合以访问实际视频内容。视频文件以MP4格式存储，需从原始数据集下载并解压特定压缩归档获取。

作为专门面向视频问答任务打造的数据集，CapRL-Video-QA-20K可支持多模态大模型研发团队开展多维度技术探索：在模型训练侧，可用于提升大模型对视频时序逻辑的推理能力、跨模态内容的关联理解能力、开放式视频问答的准确性；在评测侧，可作为标准化基准，用于不同多模态模型视频理解能力的横向对比。从下游落地场景来看，基于该数据集训练优化的多模态模型，可广泛应用于智能视频内容检索、教育场景视频知识点自动答疑、安防领域异常事件回溯查询、文娱内容智能审核、电商直播内容结构化分析等多个领域，具备极高的产业落地价值。

从数据要素产业发展的视角来看，高质量AI训练数据集是人工智能产业发展的核心底座，CapRL-Video-QA-20K的发布，进一步丰富了国内多模态训练数据的供给体系，降低了中小研发团队的视频类标注数据采集成本，对于推动多模态大模型技术迭代、加速视频类AI应用落地、完善数据要素市场在AI训练数据赛道的生态布局均具备积极意义。

查看CapRL-Video-QA-20K

Dataset card内容：

Files and versions内容：

社区讨论

近期热门