首页 / 开源数据市场 / 正文

中国人民大学联合微信视觉团队发布OMNIPRO基准数据集填补流式视频多模态评测空白

五号数据雷达开源数据市场2026-05-20 05:3928

中国人民大学联合腾讯微信视觉团队于2026年5月18日在国际学术预印本平台arXiv首发国内首个全主动流式视频理解综合基准数据集OMNIPRO，该数据集覆盖9个子任务、3个认知层次，可为多模态大模型的流式视频理解、主动感知决策能力评估提供统一评测框架，加速多模态技术产业落地。

随着多模态大模型技术的快速迭代，实时流式视频理解能力已经成为AI技术落地文娱、安防、出行、教育等多场景的核心能力支撑，但长期以来，行业内缺乏针对主动式、全模态流式视频理解的统一评测基准，不同模型的能力评估维度分散、可比性弱，成为制约相关技术规模化落地的重要瓶颈。

2026年5月18日，中国人民大学联合腾讯微信视觉团队共同打造的OMNIPRO数据集正式首发于arXiv，这也是国内首个全主动流式视频理解综合基准数据集，将为流式视频理解模型的能力评估提供统一的评测框架。

据介绍，OMNIPRO数据集共包含2700个经过人工验证的高质量样本，覆盖9个子任务、3个认知层次，全面覆盖6种基本视频理解能力，其中84%的样本需要依赖音频信号（包括语音和非语音类信号）完成判断，对大模型的多模态协同感知能力提出了更贴合真实场景的要求。数据集的源视频全部来自LongVALE和COIN两个公开数据集的测试集，共涉及1771个源视频，研发团队通过Gemini 3 Flash模型生成了多模态密集描述与结构化问答对，保障了数据集标注的规范性和覆盖度。该数据集的核心定位是系统评估大模型在全模态感知、主动响应决策、多样化视频理解任务中的协同能力，解决了传统视频评测数据集仅针对预录制内容、静态任务设计的缺陷。

从潜在应用方向来看，OMNIPRO数据集的评测能力可覆盖多个产业场景：在内容平台领域，可用于评估多模态模型对短视频流、直播流的实时内容审核、合规预警能力；在城市治理领域，可支撑安防监控模型的实时异常事件识别、主动告警能力验证；在智慧出行领域，可用于智能座舱多模态交互模型的驾驶员状态感知、动态指令响应能力评测；在在线教育领域，也可为课堂实时注意力分析、互动教学响应等场景的模型研发提供评测基准。

作为AI产业发展的核心基础设施，高质量基准数据集的供给是数据要素市场在AI领域落地的重要体现，OMNIPRO的发布不仅填补了国内流式视频主动理解领域的评测标准空白，也为全球多模态感知技术的评估提供了新的参考维度，能够有效降低相关研发团队的评测成本，统一行业能力评估口径，加速多模态大模型在实时交互场景的落地进程，为数字经济场景的智能化升级提供底层技术支撑。

查看OMNIPRO

详情页内容：

社区讨论

近期热门

中国人民大学联合微信视觉团队发布OMNIPRO基准数据集 填补流式视频多模态评测空白

详情页内容：

社区讨论

中国人民大学联合微信视觉团队发布OMNIPRO基准数据集填补流式视频多模态评测空白