随着通用人工智能技术的快速迭代,强化学习(RL)作为智能体自主决策、能力进化的核心训练路径,其安全能力短板正在成为行业关注的核心议题——此前不同机构的RL安全研究、算法评测普遍采用自研测试集,不仅存在测试标准不统一、结果不可比的问题,还可能因测试环境存在安全漏洞引发不可控风险。作为全球最具影响力的开源AI数据集建设机构之一,LAION eV此前已推出多代大规模多模态训练数据集,支撑了Stable Diffusion等多款现象级AI产品的研发,此次其面向强化学习安全垂直场景推出专用数据集,正是对行业共性需求的响应。
LAION eV本次发布的nemotron-gym-safety-v2数据集,是nvidia/Nemotron-RL-Safety-v1数据集的Harbor格式转换版本,专门面向强化学习安全任务设计。该数据集样本量覆盖10K到100K区间,每个样本仅包含两个标准化字段:path字段为确定性短ID字符串,格式为
为保障数据集本身的安全性与评测结果的可靠性,nemotron-gym-safety-v2采用了全链路安全构造转换方法:内容生成环节不插入任何shell、Python或Dockerfile源代码,所有参数值均通过JSON文件传递;运行环境层面固定基础镜像为python:3.11-slim-bookworm,pip依赖规范通过严格白名单正则表达式验证,从根源避免恶意代码注入、环境不一致导致的评测结果偏差。其内置的验证器家族采用safety_judge方案,基于LiteLLM和默认的openai/gpt-4o-mini模型构建,按照统一的原则性评分标准输出评测结果,同时配套启发式拒绝检测回退机制,大幅降低了异常样本对评测流程的干扰。
从应用场景来看,该数据集可广泛应用于三大方向:一是强化学习智能体的安全对齐训练,可为通用机器人、大模型推理代理、自动驾驶决策系统等场景的RL模型提供标准化安全任务训练样本,降低自研测试集的研发成本;二是RL安全算法的跨机构基准测试,统一的测试环境与评分标准可让不同团队研发的安全算法结果具备可比性,推动行业技术评估体系的统一;三是Harbor框架生态下的安全任务二次开发,开发者可基于该数据集的标准化结构快速自定义适配特定场景的安全评测工具。该数据集目前已适用于所有需要可验证奖励的强化学习安全研究,特别是与Harbor框架集成的场景。





_1769672084863.jpg)