five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

北卡罗来纳州立大学 发布 多类型PII数据集 数据集, 应用在 隐私安全、代码模型 领域

五号数据雷达开源数据市场2025-12-10 22:5625
多类型PII数据集 是 北卡罗来纳州立大学 发布的数据集,于 2025-12-09 首发在 arXiv 应用于 隐私安全、代码模型 领域

北卡罗来纳州立大学 本次发布的数据集 多类型PII数据集, 该数据集由北卡罗来纳州立大学和威廉与玛丽学院联合构建,聚焦代码模型中隐私风险研究,包含从真实软件仓库(如GitHub)提取的多种个人身份信息(PII)类型,如API密钥、密码、IP地址等。数据通过自动化检测、大模型辅助清洗和人工验证三重流程确保质量,旨在分析不同PII类型在代码大模型训练中的动态学习特性与泄漏风险关联。其核心应用领域为代码模型的隐私安全研究,通过因果推断方法揭示PII类型与模型记忆行为的关联,为设计类型敏感的防御机制提供理论基础。

查看多类型PII数据集

关于 北卡罗来纳州立大学 , 北卡罗来纳州立大学(North Carolina State University)是一所位于美国北卡罗来纳州首府罗利的公立研究型大学,成立于1887年,是北卡罗来纳大学系统的一部分。该校在工程、农业、设计、纺织等领域享有盛誉。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们