首页 / 开源数据市场 / 正文

NVIDIA 发布 Aegis-AI-Content-Safety-Dataset-2.0 数据集, 应用在内容安全、AI生成内容领域

五号数据雷达开源数据市场2025-01-17 06:45189

Aegis-AI-Content-Safety-Dataset-2.0 是 NVIDIA 发布的数据集,于 2025-01-16 首发在 HuggingFace 应用于内容安全、AI生成内容领域

NVIDIA 本次发布的数据集 Aegis-AI-Content-Safety-Dataset-2.0, Aegis AI Content Safety Dataset 2.0 包含33,416条人类与LLM之间的注释交互，分为30,007条训练样本、1,445条验证样本和1,964条测试样本。该数据集是之前发布的Aegis 1.0内容安全数据集的扩展。数据集通过使用HuggingFace版本的人类偏好数据（来自Anthropic HH-RLHF）进行策划，仅提取提示，并从Mistral-7B-v0.1中引出响应。数据集遵循一个全面且可适应的安全风险分类法，分为12个顶级危险类别和9个细粒度子类别。数据集采用混合数据生成管道，结合了全对话级别的人类注释和多LLM“陪审团”系统来评估响应的安全性。

查看Aegis-AI-Content-Safety-Dataset-2.0

Dataset card 内容：

Files and versions 内容：

关于 NVIDIA , 英伟达是一家专注于图形处理器开发的全球知名技术公司。

关于 HuggingFace , Hugging Face是一个机器学习社区协作平台，专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型，包括文本、图像、视频、音频和3D数据，并提供开源工具和付费计算及企业解决方案。

社区讨论

近期热门

NVIDIA 发布 Aegis-AI-Content-Safety-Dataset-2.0 数据集, 应用在 内容安全、AI生成内容 领域

Dataset card 内容：

Files and versions 内容：

社区讨论

NVIDIA 发布 Aegis-AI-Content-Safety-Dataset-2.0 数据集, 应用在内容安全、AI生成内容领域