NVIDIA本次发布的数据集Nemotron-SFT-Safety-v1,Nemotron-SFT-Safety-v1数据集旨在使模型在面对未对齐大型语言模型可能出现的各种安全和安保问题时表现稳健。该数据集包含:1) 混合(开源和合成生成)的提示集合,旨在引发不同的模型漏洞;2) 合成生成的响应,旨在引导模型行为符合安全对齐的价值观,并在各种潜在攻击向量中增强模型的鲁棒性。数据集适用于商业用途。 数据集的提示集合包括多个子集,如Nemotron内容安全数据集v2、Gretel安全对齐数据集v1、HarmfulTasks、RedTeam 2k等,以及合成生成的提示,如sdg_oversafety、sdg_jailbreaks等。响应生成技术旨在引导模型生成符合安全行为指南的推理轨迹和助手响应。 数据集采用文本模态,格式为JSONL,包含文本和元数据。总样本量为45,145个,磁盘大小约200MB。数据集适用于监督微调(SFT)以提高模型在安全和安保多个维度上的对齐性,包括对自残、暴力、犯罪计划等有害请求的适当响应,以及对常见越狱策略、网络安全攻击等的鲁棒性。 数据集由NVIDIA Corporation创建,采用CC BY 4.0、Apache 2.0和MIT许可证。使用时应考虑伦理问题,并确保符合相关行业和用例的要求。
关于NVIDIA,英伟达是一家专注于图形处理器开发的全球知名技术公司。
关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的开发与分享。它提供了丰富的资源,包括超过100万个模型、25万个数据集和40万个应用程序,支持文本、图像、视频、音频和3D等多种模态。此外,平台还提供企业级解决方案和开源工具,如Transformers、Diffusers等,以加速机器学习的研究和应用。





_1769672084863.jpg)