首页 / 开源数据市场 / 正文

NVIDIA发布Nemotron-RL-Instruction-Following-Adversarial-v1数据集,应用在对抗性提示、强化学习领域

五号数据雷达开源数据市场2026-03-13 01:0115

Nemotron-RL-Instruction-Following-Adversarial-v1是NVIDIA发布的数据集,于2026-03-11首发在HuggingFace应用于对抗性提示、强化学习领域

NVIDIA本次发布的数据集Nemotron-RL-Instruction-Following-Adversarial-v1,inverseIF数据集专注于设计对抗性提示，这些提示明确与AI模型的标准训练本能相冲突，涵盖了8种不同的“反惯例”模式。该数据集采用“模型破坏”方法，通过Nemotron-Nano-V2或Qwen3-235B-A22B-Thinking-2507生成四个候选响应，以测试负面约束是否足够困难以迫使模型表现出默认行为失败。这些响应由人类评委和GPT-5 LLM评委严格评估（要求两者之间至少有85%的一致率），只有当样本成功“破坏”模型时才会被接受（即四个响应中最多有一个通过严格标准，同时展示出差异性）。最终挑战性样本被格式化为包含对抗性提示、真实答案、候选响应和详细的双重评估指标的JSON文件。该数据集作为NVIDIA NeMo Gym的一部分发布，用于训练大型语言模型的强化学习环境。数据集包含100条记录，总存储量为72MB，采用CC-BY 4.0许可，适用于商业用途。

查看Nemotron-RL-Instruction-Following-Adversarial-v1

关于NVIDIA,英伟达是一家专注于图形处理器开发的全球知名技术公司。

关于HuggingFace,Hugging Face是一个机器学习社区协作平台，专注于模型、数据集和应用程序的开发与分享。它提供了丰富的资源，包括超过100万个模型、25万个数据集和40万个应用程序，支持文本、图像、视频、音频和3D等多种模态。此外，平台还提供企业级解决方案和开源工具，如Transformers、Diffusers等，以加速机器学习的研究和应用。

社区讨论

近期热门