NVIDIA 本次发布的数据集 Aegis-AI-Content-Safety-Dataset-2.0, Aegis AI Content Safety Dataset 2.0 包含33,416条人类与LLM之间的注释交互,分为30,007条训练样本、1,445条验证样本和1,964条测试样本。该数据集是之前发布的Aegis 1.0内容安全数据集的扩展。数据集通过使用HuggingFace版本的人类偏好数据(来自Anthropic HH-RLHF)进行策划,仅提取提示,并从Mistral-7B-v0.1中引出响应。数据集遵循一个全面且可适应的安全风险分类法,分为12个顶级危险类别和9个细粒度子类别。数据集采用混合数据生成管道,结合了全对话级别的人类注释和多LLM“陪审团”系统来评估响应的安全性。
查看Aegis-AI-Content-Safety-Dataset-2.0
Dataset card 内容:
Files and versions 内容:
关于 NVIDIA , 英伟达是一家专注于图形处理器开发的全球知名技术公司。
关于 HuggingFace , Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。





_1769672084863.jpg)