首页 / 开源数据市场 / 正文

宾夕法尼亚州立大学发布 PrivaSeer Corpus 数据集, 应用在隐私政策、自然语言处理领域

五号数据雷达开源数据市场2024-10-13 17:27113

PrivaSeer Corpus 是宾夕法尼亚州立大学发布的数据集,于 2024-03-30 首发在 arXiv 应用于隐私政策、自然语言处理领域

宾夕法尼亚州立大学本次发布的数据集 PrivaSeer Corpus, PrivaSeer Corpus是由宾夕法尼亚州立大学信息科学与技术学院创建的一个大规模数据集，包含1,005,380个英文网站隐私政策。该数据集的规模是公开可用的最大隐私政策数据集的十倍以上，覆盖了超过800个顶级域名，如.com、.org和.net等。创建过程涉及网络爬虫、语言检测、文档分类、重复和近似重复移除以及内容提取等多个阶段。该数据集主要用于解决隐私政策理解和自动化处理的问题，特别是在自然语言处理领域，通过无监督主题建模方法分析隐私政策的内容和结构，以及训练隐私政策专用语言模型PrivBERT，以提高隐私政策相关任务的性能。

查看PrivaSeer Corpus

关于宾夕法尼亚州立大学 , 宾夕法尼亚州立大学（Pennsylvania State University）是一所位于美国宾夕法尼亚州的公立研究型大学，成立于1855年。该校是美国最大的大学之一，拥有多个校区，主校区位于大学城。宾夕法尼亚州立大学在多个学科领域都有卓越的研究和教学成果，尤其在工程、商业、农业和自然科学等领域享有盛誉。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

宾夕法尼亚州立大学 发布 PrivaSeer Corpus 数据集, 应用在 隐私政策、自然语言处理 领域

社区讨论

宾夕法尼亚州立大学发布 PrivaSeer Corpus 数据集, 应用在隐私政策、自然语言处理领域