five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

NVIDIA 发布 Aegis-AI-Content-Safety-Dataset-2.0 数据集, 应用在 内容安全、AI生成内容 领域

五号数据雷达开源数据市场2025-01-17 06:45189
Aegis-AI-Content-Safety-Dataset-2.0 是 NVIDIA 发布的数据集,于 2025-01-16 首发在 HuggingFace 应用于 内容安全、AI生成内容 领域

NVIDIA 本次发布的数据集 Aegis-AI-Content-Safety-Dataset-2.0, Aegis AI Content Safety Dataset 2.0 包含33,416条人类与LLM之间的注释交互,分为30,007条训练样本、1,445条验证样本和1,964条测试样本。该数据集是之前发布的Aegis 1.0内容安全数据集的扩展。数据集通过使用HuggingFace版本的人类偏好数据(来自Anthropic HH-RLHF)进行策划,仅提取提示,并从Mistral-7B-v0.1中引出响应。数据集遵循一个全面且可适应的安全风险分类法,分为12个顶级危险类别和9个细粒度子类别。数据集采用混合数据生成管道,结合了全对话级别的人类注释和多LLM“陪审团”系统来评估响应的安全性。

查看Aegis-AI-Content-Safety-Dataset-2.0

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 NVIDIA , 英伟达是一家专注于图形处理器开发的全球知名技术公司。

关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们