首页 / 开源数据市场 / 正文

上海人工智能实验室发布ProGuard Dataset数据集,应用在内容安全、多模态学习领域

五号数据雷达开源数据市场2025-12-31 19:1761

ProGuard Dataset是上海人工智能实验室发布的数据集,于2025-12-30首发在arXiv应用于内容安全、多模态学习领域

上海人工智能实验室本次发布的数据集ProGuard Dataset,ProGuard数据集是由上海人工智能实验室、南京大学PRLab和北京航空航天大学联合构建的多模态安全标注数据集，包含87,000条经过严格标注的文本、图像及图文混合样本。该数据集采用分层多模态安全分类体系，每条数据均标注有二元安全标签和细粒度风险类别，有效缓解了传统方法中的模态偏差问题。数据来源整合了GuardReasoner、BeaverTails-V等10个权威安全数据集，通过大模型多数投票机制进行标注验证，人类验证准确率超过90%。该数据集专为训练主动式安全防护模型设计，可应用于生成式AI的内容安全过滤、风险分类和未知威胁检测等领域。

查看ProGuard Dataset

关于上海人工智能实验室,上海人工智能实验室是上海市政府支持建立的人工智能研究机构，专注于人工智能基础理论和前沿技术研究。

关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门