首页 / 开源数据市场 / 正文

中央大学发布业内首个多模态版权评估基准数据集CoVUBench 填补视觉语言模型版权遗忘测试空白

五号数据雷达开源数据市场2026-05-08 05:3611

2026年5月5日，中央大学科研团队在arXiv首发业内首个专注于视觉语言模型版权内容遗忘评估的基准数据集CoVUBench，该数据集采用无真实IP风险的合成生成方案，可为多模态AI版权合规测试、跨模态版权遗忘效果验证提供标准化工具，助力完善AI版权治理体系。

近年来，以GPT-4V、Gemini多模态版为代表的大语言视觉模型（LVLMs）加速落地，在内容生成、智能交互、工业检测等多个领域实现规模化应用，但伴随而来的训练数据版权争议、生成内容侵权风险也成为制约多模态AI产业合规发展的核心痛点。当前行业针对单模态文本模型的版权遗忘评估已经形成部分验证方案，但跨模态场景下，如何标准化评估模型对视觉+文本类版权内容的遗忘效果、测试模型是否会违规生成受保护的版权内容，始终缺乏统一的基准测试工具，相关领域的科研与产业实践均面临数据支撑不足的问题。

2026年5月5日，中央大学科研团队正式在arXiv平台首发业内首个专注于视觉语言模型版权内容遗忘评估的基准数据集CoVUBench，为解决上述行业痛点提供了标准化解决方案。中央大学本次发布的数据集CoVUBench，是由其科研团队构建的首个专注于视觉语言模型版权内容遗忘评估的基准数据集，包含20个程序化生成的合成版权概念蓝图。数据集通过结构化JSON对象定义虚构角色和商标的核心语义与视觉属性，并生成包含多样化视觉布局（如背景、视角）和领域表现（如3D模型、T恤图案）的多模态数据。其构建过程采用LLM引导的生成流程，确保内容合法且避免真实IP复制，旨在解决LVLMs中跨模态版权内容的鲁棒遗忘评估难题，为版权持有者与模型部署者提供标准化测试工具。

从应用场景来看，CoVUBench数据集可广泛应用于多模态AI全生命周期的版权合规环节：对于AI模型研发厂商而言，可通过该数据集验证模型版权遗忘算法的有效性，在完成受版权保护内容的清理、遗忘操作后，标准化测试模型是否仍存在违规生成版权内容的风险，降低产品上线后的侵权隐患；对于版权持有方而言，该数据集提供的标准化测试框架可作为版权维权的参考验证工具，提升多模态场景下版权侵权判定的效率与公正性；对于监管机构与第三方检测机构而言，该数据集可作为多模态AI产品合规性评估的基础支撑工具，助力完善AI版权治理的标准体系；此外，该数据集还可为全球高校、科研机构开展多模态AI对齐、版权治理相关方向的学术研究提供高质量的数据支撑。

作为国内首个聚焦跨模态版权评估的基准数据集，CoVUBench的发布填补了多模态AI版权测试领域的空白，对推动我国AI产业合规化发展、完善数据要素市场下的知识产权保护体系具有重要的示范意义。伴随数据要素市场化配置改革的持续推进，AI训练数据的合规性、版权保护机制建设已成为数字经济发展的核心命题，这类垂直领域基准数据集的落地，将为AI产业的健康可持续发展提供重要的基础设施支撑。

查看CoVUBench

Dataset card内容：

Files and versions内容：

社区讨论

近期热门