NVIDIA本次发布的数据集Nemotron-RL-Instruction-Following-Adversarial-v1,inverseIF数据集专注于设计对抗性提示,这些提示明确与AI模型的标准训练本能相冲突,涵盖了8种不同的“反惯例”模式。该数据集采用“模型破坏”方法,通过Nemotron-Nano-V2或Qwen3-235B-A22B-Thinking-2507生成四个候选响应,以测试负面约束是否足够困难以迫使模型表现出默认行为失败。这些响应由人类评委和GPT-5 LLM评委严格评估(要求两者之间至少有85%的一致率),只有当样本成功“破坏”模型时才会被接受(即四个响应中最多有一个通过严格标准,同时展示出差异性)。最终挑战性样本被格式化为包含对抗性提示、真实答案、候选响应和详细的双重评估指标的JSON文件。该数据集作为NVIDIA NeMo Gym的一部分发布,用于训练大型语言模型的强化学习环境。数据集包含100条记录,总存储量为72MB,采用CC-BY 4.0许可,适用于商业用途。
查看Nemotron-RL-Instruction-Following-Adversarial-v1
关于NVIDIA,英伟达是一家专注于图形处理器开发的全球知名技术公司。
关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的开发与分享。它提供了丰富的资源,包括超过100万个模型、25万个数据集和40万个应用程序,支持文本、图像、视频、音频和3D等多种模态。此外,平台还提供企业级解决方案和开源工具,如Transformers、Diffusers等,以加速机器学习的研究和应用。





_1769672084863.jpg)