浙江大学本次发布的数据集CopyGuard Benchmark Dataset,该数据集由浙江大学等机构联合构建,旨在评估大型视觉语言模型(LVLM)对版权内容的识别与合规能力。数据集包含5万条多模态查询-内容对,覆盖书籍摘录、新闻文章、音乐歌词和代码文档四类版权材料,并模拟含版权声明与无声明两种现实场景。数据来源包括Goodreads畅销书、BBC/CNN新闻、Spotify热门音乐及Hugging Face/PyPI技术文档,通过严格的时间线和主题筛选确保多样性。其构建流程包含版权材料采集、声明添加和查询生成三个步骤,专门用于检测模型在重复、提取、改写和翻译四种侵权场景下的行为。该基准的建立为开发版权感知的多模态系统提供了重要支撑,助力解决AI生成内容引发的知识产权风险问题。
README内容:
关于浙江大学,浙江大学是中国一所历史悠久、学科全面、科研实力雄厚的顶尖综合性大学。
关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)