five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

中央大学发布Doc-PP (Document Policy Preservation Benchmark)数据集,应用在多模态推理、政策保护领域

五号数据雷达开源数据市场2026-01-09 16:4228
Doc-PP (Document Policy Preservation Benchmark)是中央大学发布的数据集,于2026-01-07首发在arXiv应用于多模态推理、政策保护领域

中央大学本次发布的数据集Doc-PP (Document Policy Preservation Benchmark),Doc-PP是由韩国中央大学团队构建的多模态文档政策保护基准数据集,旨在评估大型视觉语言模型在复杂跨模态推理场景下对用户定义的非披露政策的遵守能力。该数据集包含635条从真实世界PDF文档(如财务报告、行业报告)中提取的样本,每条样本均包含文本和视觉元素,并配有明确的保密政策及需跨模态推理的查询。数据通过三阶段流程构建:首先生成候选保密目标并过滤,随后创建目标对齐的文档片段,最后设计显式和隐式查询以测试政策合规性。该数据集主要应用于文档级问答系统的安全性和合规性研究,解决动态政策约束下的敏感信息泄露问题。

查看Doc-PP (Document Policy Preservation Benchmark)

README内容:

 

关于中央大学,中央大学位于台湾,是一所历史悠久的综合性大学,其前身可以追溯到1915年。该校在多个学科领域具有较强的研究实力,尤其在工程、自然科学和人文社会科学方面享有盛誉。

关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们