首页 / 开源数据市场 / 正文

Google Research 发布 AMBENCH 数据集, 应用在隐私保护、个人身份信息检测领域

五号数据雷达开源数据市场2025-05-22 06:2825

AMBENCH 是 Google Research 发布的数据集,于 2025-05-21 首发在 arXiv 应用于隐私保护、个人身份信息检测领域

Google Research 本次发布的数据集 AMBENCH, AMBENCH是一个由看似模棱两可的人名组成的基准数据集，这些名字利用了名字常规性偏差现象，嵌入在简短文本片段中，并伴有良性提示注入。该数据集旨在评估大型语言模型在检测个人身份信息方面的能力，特别是在模糊上下文中。实验表明，现代大型语言模型在识别模棱两可的人名时，召回率比识别更易辨认的名字低20-40%。此外，当良性提示注入存在时，模棱两可的人名在LLM生成的隐私保护摘要中被忽略的可能性是其他名字的四倍。这些发现突显了完全依赖LLM来保护用户隐私的风险，并强调了需要对其隐私失败模式进行更系统的研究。

查看AMBENCH

关于 Google Research , 谷歌研究院是谷歌公司旗下的研究部门，致力于推动计算机科学、人工智能、机器学习等领域的前沿研究。该机构汇聚了全球顶尖的科学家和工程师，通过创新研究和技术开发，推动谷歌产品和服务的技术进步。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

Google Research 发布 AMBENCH 数据集, 应用在 隐私保护、个人身份信息检测 领域

社区讨论

Google Research 发布 AMBENCH 数据集, 应用在隐私保护、个人身份信息检测领域