中央大学本次发布的数据集Doc-PP (Document Policy Preservation Benchmark),Doc-PP是由韩国中央大学团队构建的多模态文档政策保护基准数据集,旨在评估大型视觉语言模型在复杂跨模态推理场景下对用户定义的非披露政策的遵守能力。该数据集包含635条从真实世界PDF文档(如财务报告、行业报告)中提取的样本,每条样本均包含文本和视觉元素,并配有明确的保密政策及需跨模态推理的查询。数据通过三阶段流程构建:首先生成候选保密目标并过滤,随后创建目标对齐的文档片段,最后设计显式和隐式查询以测试政策合规性。该数据集主要应用于文档级问答系统的安全性和合规性研究,解决动态政策约束下的敏感信息泄露问题。
查看Doc-PP (Document Policy Preservation Benchmark)
README内容:
关于中央大学,中央大学位于台湾,是一所历史悠久的综合性大学,其前身可以追溯到1915年。该校在多个学科领域具有较强的研究实力,尤其在工程、自然科学和人文社会科学方面享有盛誉。
关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)