近年来,随着多模态大模型技术的快速迭代,视频理解、时空推理能力已经成为AI从“感知”向“认知”升级的核心指标,但当前主流视频大语言模型普遍存在复杂场景下的时空逻辑幻觉问题——对长视频中跨片段的因果关联判断错误、细粒度视觉线索定位偏差,已经成为制约视频大模型落地工业级场景的核心瓶颈。针对这一行业共性痛点,国内顶尖工科院校、人工智能领域研究重镇哈尔滨工业大学的研究团队,正式发布Video-ToC系列两大视频训练数据集Video-ToC-SFT-1k、Video-ToC-RL-2k,相关成果将于2026年4月22日首发于国际知名学术预印本平台arXiv。
本次发布的Video-ToC系列数据集由哈工大团队自主构建,包含适配不同训练范式的两部分核心数据:1k条监督微调(SFT)样本和2k条强化学习(RL)样本。不同于传统视频数据集的平铺式标注逻辑,该数据集创新性采用树状视频片段结构搭建标注框架,每个叶节点对应独立视频片段的原生内容,通过大语言模型生成全链路层次化推理轨迹标注,完整还原视频内容的时空逻辑关系。数据集的基础素材源自对LLaVA-Video-178K数据集的结构化重构,标注环节采用Qwen2.5-VL-7B和Llama-3.3-70B两大主流多模态大模型完成自动化标注,在保障标注规模的同时大幅提升了标注逻辑的一致性。
据研发团队介绍,该数据集的核心设计目标就是解决视频大语言模型在复杂时空推理任务中的幻觉问题,针对性提升模型对跨片段细粒度视觉线索的定位能力、对长视频时空逻辑的还原能力,可直接适配视频问答、长视频语义理解、时空因果推理等多类技术场景。从落地应用来看,基于该数据集优化后的视频大模型,未来可广泛应用于智慧安防领域的异常事件回溯与预警、文娱领域的长视频智能剪辑与内容审核、教育领域的视频知识点自动拆解与结构化、自动驾驶领域的复杂交通场景感知推理等多个垂直赛道,为多模态AI的工业级落地提供高质量数据支撑。
当前我国数据要素市场正处于高速发展阶段,高质量AI训练数据作为AI产业的核心生产要素,其供给能力直接决定了我国人工智能产业的全球竞争力。本次哈工大发布的Video-ToC系列数据集,填补了国内视频时空推理方向结构化训练数据集的供给缺口,也为多模态训练数据的标注体系建设提供了可参考的创新路径,对推动我国多模态大模型技术迭代、加速数据要素在人工智能赛道的价值释放具有重要意义。





_1769672084863.jpg)