首页 / 开源数据市场 / 正文

浙江大学发布CopyGuard Benchmark Dataset数据集,应用在版权保护、多模态AI领域

五号数据雷达开源数据市场2025-12-30 14:2267

CopyGuard Benchmark Dataset是浙江大学发布的数据集,于2025-12-26首发在arXiv应用于版权保护、多模态AI领域

浙江大学本次发布的数据集CopyGuard Benchmark Dataset,该数据集由浙江大学等机构联合构建，旨在评估大型视觉语言模型（LVLM）对版权内容的识别与合规能力。数据集包含5万条多模态查询-内容对，覆盖书籍摘录、新闻文章、音乐歌词和代码文档四类版权材料，并模拟含版权声明与无声明两种现实场景。数据来源包括Goodreads畅销书、BBC/CNN新闻、Spotify热门音乐及Hugging Face/PyPI技术文档，通过严格的时间线和主题筛选确保多样性。其构建流程包含版权材料采集、声明添加和查询生成三个步骤，专门用于检测模型在重复、提取、改写和翻译四种侵权场景下的行为。该基准的建立为开发版权感知的多模态系统提供了重要支撑，助力解决AI生成内容引发的知识产权风险问题。

查看CopyGuard Benchmark Dataset

README内容：

关于浙江大学,浙江大学是中国一所历史悠久、学科全面、科研实力雄厚的顶尖综合性大学。

关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门