随着多模态大模型技术在公共安全、智能安防领域的落地进程加快,视频智能分析、法医级影像检索的市场需求持续释放,但长期以来,行业缺乏针对监控场景、支持多模态查询、可标准化评测视频大模型实际工作性能的垂直领域基准数据集,成为掣肘相关技术从实验室走向落地应用的核心瓶颈之一。北京时间2026年4月24日,高通(Qualcomm)在HuggingFace平台正式首发ForeSeaQA视频问答(VideoQA)基准数据集,专门面向视频监控分析、法医时间定位领域的核心需求设计。
据介绍,ForeSeaQA是高通ForeSea数据集系列中针对视频问答任务的专项基准,核心目标是评估视频大语言模型(VideoLLMs)、视频检索增强生成(Video-RAG)系统在真实安防分析师、刑侦技术人员工作流程中的实际表现,支持结合参考图像(如嫌疑人快照、涉案物品照片)和文本问题的多模态查询模式,完全贴合公共安全场景下的真实检索需求。
该数据集设置了三大核心评估维度:一是答案正确性,以多项选择准确率为核心指标,验证模型对视频内容的理解准确性;二是时间定位能力,评估模型能否精准预测包含关键证据的时间区间,满足法医场景下对事件时间节点的高精度要求;三是多模态推理能力,验证模型对图像、文本混合查询的信息整合与分析水平。围绕三大维度,ForeSeaQA共设置六类细分任务,覆盖公共安全场景下的高频需求:搜索(SE)任务可用于验证模型根据目标图像检索其在监控中出现记录的能力,活动(AC)任务对应特定行为识别需求,事件(EV)任务用于评测突发事件完整时段定位能力,时间(TM)任务可验证事件发生时间的查询准确率,计数(CT)任务对应特定目标出现次数统计需求,异常(AN)任务则用于评估模型对监控画面中违规、危险情况的识别能力。
为保障数据集的专业性与可靠性,ForeSeaQA采用半自动化数据引擎生成,并经过多轮人工验证,确保所有问答对的有效性、答案准确性与时间定位标注精度。数据集的视频源均来自行业内广泛使用的UCF-Crime公开安防数据集,涵盖128小时、共1900个各类安防场景视频,包含完整的注释文件(覆盖问题、多项选择选项、正确答案、时间戳、任务类型等信息)以及用于生成、查询多模态问题参考图像的映射元数据。官方明确该数据集仅限研究用途使用,相关研究成果需标注引用对应论文。
行业分析认为,ForeSeaQA的发布填补了垂直安防、法医领域多模态视频问答评测数据集的空白,能够为科研机构、科技企业提供标准化的评测工具,帮助其更精准地优化视频大模型在真实公共安全场景下的性能,加快智能视频分析技术在城市治安防控、刑侦案件调查、重点区域安防等领域的落地效率,也为垂直领域数据要素的标准化建设提供了参考范例。
首页 / 开源数据市场 / 正文
高通发布ForeSeaQA视频问答基准数据集 赋能安防、法医场景多模态模型评测
五号数据雷达开源数据市场2026-04-25 03:0017
高通于2026年4月24日在HuggingFace平台首发垂直领域专用ForeSeaQA视频问答基准数据集,针对视频监控分析、法医时间定位核心需求设计,可为视频大语言模型、视频检索增强生成系统的多模态推理能力评测提供标准化支撑,助力公共安全领域智能分析技术落地。

社区讨论
近期热门




_1769672084863.jpg)