首页 / 开源数据市场 / 正文

北京智源联合北大发布InsAVE-80K数据集填补指令引导音视频跨模态编辑数据空白

五号数据雷达开源数据市场2026-05-20 05:489

北京智源人工智能研究院联合北京大学于2026年5月18日在arXiv平台首发国内首个大规模指令引导音视频联合编辑数据集InsAVE-80K，可解决跨模态细粒度内容同步修改行业痛点，为可控媒体内容创作技术研发与落地提供核心数据支撑。

近年来，随着AIGC技术向多模态、可控化方向快速演进，指令引导的音视频智能编辑、跨模态内容生成已经成为内容产业数字化转型的核心赛道，但行业长期面临可对齐文本指令、同时覆盖音视频双模态的高质量训练数据稀缺的痛点，极大限制了相关技术的落地效率。在此背景下，北京智源人工智能研究院联合北京大学正式发布大规模指令引导音视频联合编辑数据集InsAVE-80K，是目前国内首个面向开放世界音视频内容协同操控场景的专项数据集。

据介绍，InsAVE-80K数据集总规模约8万条样本，其中包含79K训练对和1K评估对，每条数据均覆盖源媒体、合成目标及文本指令三元组结构，可为算法训练提供明确的指令-效果对齐参考。为保障数据质量与覆盖广度，该数据集的原始素材全部取自公开在线平台及多个行业权威音视频数据集，经过多阶段严格筛选后进入生产流程；其创建采用自研可扩展数据合成流水线，通过掩码引导编辑引擎自动生成匹配的文本指令与对应合成目标，同时引入多模态大模型预评估+专业人工校验的双重验证机制，最大限度降低数据偏差，确保训练数据的可靠性与场景适配性。

作为面向音视频联合生成与编辑场景的专项训练数据，InsAVE-80K主要用于解决指令引导下跨模态细粒度内容同步修改的行业共性难题，可广泛适配多类产业场景的技术研发需求：在短视频与内容平台场景，可支撑智能剪辑工具实现“根据文本指令同步调整画面内容与对应音效、背景音乐”的自动化编辑能力；在广电与数字内容生产场景，可助力降低专业内容的粗制作成本，提升定制化内容生产效率；在数字人、虚拟场景制作等新兴领域，也可为音视频同步生成、实时调整等技术研发提供数据基础，最终推动可控媒体内容创作技术的普惠化落地。

从数据要素产业视角来看，高质量AI训练数据集是人工智能技术创新的核心生产要素，本次InsAVE-80K的发布，既填补了国内指令引导音视频联合编辑领域的数据集供给空白，也为跨模态AIGC技术的标准化研发提供了统一的评估基准，对推动我国多模态人工智能技术创新、加速内容产业数字化转型具有重要意义。

查看InsAVE-80K

详情页内容：

社区讨论

近期热门

北京智源联合北大发布InsAVE-80K数据集 填补指令引导音视频跨模态编辑数据空白

详情页内容：

社区讨论

北京智源联合北大发布InsAVE-80K数据集填补指令引导音视频跨模态编辑数据空白