five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

天津大学发布APPSI-139高质量标注数据集 破解隐私政策晦涩痛点 赋能法律NLP领域应用

五号数据雷达开源数据市场2026-05-02 04:5918
天津大学近日于arXiv平台首发APPSI-139英文隐私政策平行语料数据集,该数据集由法律专家全程标注完成,标注一致性Kappa值达0.892,可广泛应用于隐私政策可读性优化、法律文本自然语言处理等场景,填补了跨领域隐私政策标注语料的行业空白。

随着全球个人信息保护监管体系持续完善,我国《个人信息保护法》、欧盟GDPR等规则均明确要求平台隐私政策需具备可读性、保障用户知情权,但当前多数互联网平台的隐私政策普遍充斥专业法律术语与技术表述,动辄数千字的内容让普通用户难以读懂,隐私告知实质上形同虚设。与此同时,法律自然语言处理(NLP)领域长期缺乏高质量、跨场景的标注语料资源,制约了隐私政策自动简化、合规智能审查等应用的落地效率。

针对上述行业痛点,天津大学近日正式发布APPSI-139数据集。据介绍,APPSI-139是国内少见的由法律专家全程参与标注的高质量英文隐私政策并行语料库,核心目标就是解决隐私政策因专业措辞导致的用户理解门槛问题。该数据集覆盖139份来自购物、直播、游戏等多个热门互联网领域的隐私政策,所有样本均来源于2023年Google Play、App Store两大应用市场下载量Top100的移动应用,经去重、合规筛选后由法律专家完成分句标注,标注一致性Kappa值达0.892,处于专业领域标注数据的较高水平。

从数据规模来看,APPSI-139共包含15692对改写后的平行文本、36351个细粒度标注标签,覆盖11类常见的数据处理实践,可为多场景的AI模型训练提供高质量标注数据支撑。目前该数据集已支持隐私政策摘要与解释两大核心任务,既能够帮助普通用户快速掌握隐私政策核心内容、做出知情隐私决策,也可推动自然语言处理模型在法律文本可读性优化方向的技术迭代。

从应用价值来看,该数据集可支撑三大类典型场景落地:一是C端用户服务场景,可用于训练NLP模型自动生成大白话版的隐私政策摘要,用户安装APP时无需通读长文即可快速知晓个人信息收集范围、用途等核心内容,真正实现知情决策;二是平台合规优化场景,企业可依托该数据集优化自身隐私政策的表述逻辑,在符合监管要求的前提下降低用户理解门槛,减少因隐私政策晦涩引发的用户投诉与监管处罚风险;三是法律科技研发场景,该数据集可为隐私合规智能巡检工具、法律文本简化模型等产品的研发提供核心训练数据,推动法律NLP技术在个人信息保护领域的落地。

作为垂直领域的高质量标注数据集,APPSI-139的发布也为数据要素市场的垂直品类资源供给提供了参考:当前AI研发对细分领域标注数据的需求持续上涨,而法律、医疗等专业领域的标注数据因对标注主体的专业资质要求高、标注流程复杂,始终处于供给短缺状态,本次天津大学发布的数据集既填补了跨领域英文隐私政策标注语料的空白,也为高校参与专业领域数据资源供给、助力数字经济细分场景落地提供了可参考的样本。

查看APPSI-139

详情页内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们