当前AIGC视频赛道正进入落地攻坚期,指令式视频编辑、可控文生视频等应用需求持续爆发,但行业长期面临高质量标注数据集供给不足的痛点——现有公开视频数据集大多集中在滤镜调整、画面裁剪等基础外观编辑任务,缺乏多指令协同、跨场景结构变换类的标注内容,无法支撑复杂视频AI模型的训练与评测,成为制约视频生成、智能剪辑产业发展的核心瓶颈之一。
在此背景下,中国科学技术大学联合腾讯混元发布的大规模指令式视频编辑数据集Goku,于2026年6月30日首发于arXiv平台。据介绍,该数据集是国内首个覆盖多任务结构编辑场景的大规模视频标注数据集,包含200万条高质量视频编辑对,首次将视频编辑数据集的任务覆盖范围从基础外观编辑扩展至多任务协同与结构编辑赛道,填补了行业现有供给的空白。
目前公开信息显示,Goku数据集共覆盖10类核心视频编辑任务,所有视频素材均为720p分辨率,单段视频包含65至129帧,素材源来自Koala-36M的精选视频片段,通过自动化流水线结合渐进过滤系统完成标注生成。为保证数据集标注质量,其构建过程采用任务分解策略,依托Gemini2.5-Pro生成编辑指令,全程严格校验语义保真度与时序一致性,可有效避免传统数据集中普遍存在的标注歧义、时序错乱等问题,核心目标是为复杂视频编辑模型提供标准化的训练与评测基准,解决现有数据集在结构变换与多任务编辑方面的普遍不足。
从应用价值来看,Goku数据集可广泛支撑多类视频AI场景的研发工作:在消费互联网领域,可用于优化短视频平台的智能剪辑工具、AI特效功能,降低普通用户的专业化视频创作门槛;在电商领域,可支撑商品短视频的批量个性化编辑,满足不同渠道、不同客群的差异化内容分发需求;在影视文娱领域,可辅助后期团队完成特效合成、片段调整等重复性工作,提升内容生产效率;在学术研究层面,Goku提供的标准化评测基准,也将推动视频编辑领域的算法迭代,助力解决当前视频AI模型普遍存在的多指令理解准确率低、生成内容结构崩坏等共性问题。
作为AI产业的核心生产要素,高质量多模态数据集的供给能力直接决定了人工智能技术的落地进度。此次Goku数据集的发布,不仅为视频编辑、视频生成领域的研发提供了重要的基础设施支撑,也为国内多模态数据集的标准化构建提供了参考样本,对推动我国AIGC视频产业的自主研发与落地应用具有积极意义。





_1769672084863.jpg)