北卡罗来纳州立大学 本次发布的数据集 多类型PII数据集, 该数据集由北卡罗来纳州立大学和威廉与玛丽学院联合构建,聚焦代码模型中隐私风险研究,包含从真实软件仓库(如GitHub)提取的多种个人身份信息(PII)类型,如API密钥、密码、IP地址等。数据通过自动化检测、大模型辅助清洗和人工验证三重流程确保质量,旨在分析不同PII类型在代码大模型训练中的动态学习特性与泄漏风险关联。其核心应用领域为代码模型的隐私安全研究,通过因果推断方法揭示PII类型与模型记忆行为的关联,为设计类型敏感的防御机制提供理论基础。
关于 北卡罗来纳州立大学 , 北卡罗来纳州立大学(North Carolina State University)是一所位于美国北卡罗来纳州首府罗利的公立研究型大学,成立于1887年,是北卡罗来纳大学系统的一部分。该校在工程、农业、设计、纺织等领域享有盛誉。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)