five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

浙江大学发布CopyGuard Benchmark Dataset数据集,应用在版权保护、多模态AI领域

五号数据雷达开源数据市场2025-12-30 14:2267
CopyGuard Benchmark Dataset是浙江大学发布的数据集,于2025-12-26首发在arXiv应用于版权保护、多模态AI领域

浙江大学本次发布的数据集CopyGuard Benchmark Dataset,该数据集由浙江大学等机构联合构建,旨在评估大型视觉语言模型(LVLM)对版权内容的识别与合规能力。数据集包含5万条多模态查询-内容对,覆盖书籍摘录、新闻文章、音乐歌词和代码文档四类版权材料,并模拟含版权声明与无声明两种现实场景。数据来源包括Goodreads畅销书、BBC/CNN新闻、Spotify热门音乐及Hugging Face/PyPI技术文档,通过严格的时间线和主题筛选确保多样性。其构建流程包含版权材料采集、声明添加和查询生成三个步骤,专门用于检测模型在重复、提取、改写和翻译四种侵权场景下的行为。该基准的建立为开发版权感知的多模态系统提供了重要支撑,助力解决AI生成内容引发的知识产权风险问题。

查看CopyGuard Benchmark Dataset

README内容:

 

关于浙江大学,浙江大学是中国一所历史悠久、学科全面、科研实力雄厚的顶尖综合性大学。

关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们