five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

LAION eV发布Nemotron Gym v2对抗性强化学习数据集 修复LLM奖励验证核心故障

五号数据雷达开源数据市场2026-05-19 03:4010
国际开放AI数据集机构LAION eV于2026年5月18日在HuggingFace首发nemotron-gym-instruction-following-adversarial-v2数据集,作为英伟达v1版本的Harbor格式适配版,该数据集解决了原版本LLM评判者调用失效的核心问题,可支撑强化学习指令跟随、对抗性环境奖励验证等研究与产业场景。

作为全球最具影响力的开放AI数据集建设机构之一,LAION eV此前推出的LAION-5B等多模态数据集已成为Stable Diffusion等生成式AI模型的核心训练底座,在全球AI开源社区拥有极高的认可度。近年来,随着大模型强化学习、自主智能体(Agent)技术进入落地攻坚期,指令跟随能力的稳定性、对抗性环境下的鲁棒性、可验证奖励机制的可靠性,已成为行业公认的技术攻坚难点,专用训练测试数据集的缺口持续扩大。本次LAION eV发布的nemotron-gym-instruction-following-adversarial-v2数据集,正是瞄准这一行业需求推出的垂直领域专用数据集。

该数据集是nvidia/Nemotron-RL-Instruction-Following-Adversarial-v1数据集的Harbor格式转换版本,标识为laion/nemotron-gym-instruction-following-adversarial-v2,属于强化学习任务范畴,专注于指令跟随和对抗性环境测试,并支持基于大语言模型作为评判者的可验证奖励机制。数据集样本规模在1000到10000个之间,覆盖英语场景,采用CC-BY-4.0开源许可证,研究人员与产业开发者可免费使用、修改与二次分发。

本次发布的v2版本核心价值在于修复了原始v1版本的致命可用性问题:v1版本中,由于LLM-judge验证器在沙盒容器中运行时缺少必要的API密钥凭据(如OPENAI_API_KEY),导致所有验证调用完全失败,奖励值被默认设置为0.0,直接造成任务解决率为0%,完全无法支撑正常的训练与测试工作。v2版本通过在task.toml配置文件中添加[verifier.env]配置块,确保Harbor能够将主机环境中的OPENAI_API_KEY(以及可选的JUDGE_MODEL参数)正确传递到验证器容器内部,彻底恢复了奖励验证的核心功能,让数据集可用性从0提升至可落地使用的标准。该数据集由OpenThoughts-Agent项目中的data/nemotron_gym适配器生成。

从应用场景来看,该数据集可广泛支撑多类AI研发需求:一是可用于大语言模型RLHF/RLAIF训练阶段的指令跟随能力评测,尤其是复杂多轮指令、歧义指令的完成度验证;二是可用于自主智能体在对抗性环境下的鲁棒性测试,模拟对抗性prompt注入、干扰信息存在的真实场景,验证智能体是否能准确遵循用户指令完成任务;三是可用于可验证奖励机制的前沿研究,研究人员可基于该数据集测试不同LLM-judge的评判一致性、准确率,优化自动奖励模型的构建逻辑;四是可作为通用基准,支撑强化学习训练框架的兼容性测试与功能验证。该数据集的发布也将进一步降低相关领域的研发门槛,推动强化学习指令跟随技术的标准化迭代,为大模型、智能体的落地应用提供更可靠的测试基准。

查看nemotron-gym-instruction-following-adversarial-v2

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们