当前,随着大模型智能体、工具调用、垂直场景落地需求的快速爆发,强化学习(RL)尤其是RLHF(人类反馈强化学习)已成为大模型可控性优化、输出效果校准的核心技术路径,但行业长期面临强化学习专用数据集供给不足、任务标准不统一、验证逻辑难复现的痛点,大量研究团队需要自行搭建任务环境与验证规则,不仅研发成本高企,不同团队的实验结果也难以横向对比。作为全球知名的开源AI数据集运营组织,LAION eV此前推出的LAION-5B等多模态数据集曾成为Stable Diffusion等多款现象级生成式AI产品的核心训练基础,本次推出的新数据集正是瞄准强化学习领域的供给缺口打造。
本次发布的nemotron-gym-instruction-following-structured数据集,是NVIDIA Nemotron-RL-instruction_following-structured_outputs数据集的Harbor格式转换版本,属于NeMo-Gym集合的一部分,专为强化学习任务设计,核心覆盖指令遵循和结构化输出验证两大核心场景。数据集包含1000到10000个样本,每个样本对应一个完整的独立强化学习任务。数据集采用统一的Harbor任务格式,每行包含两个核心字段:path字段提供格式为<family>-<sha256[:12]>.tar.gz的确定性短ID标识符,task_binary字段为gzip压缩的tar文件,封装了完整的Harbor任务执行所需的全部资源。
每个任务包均包含标准化的核心组件:instruction.md文件存储展示给智能体的提示指令,确保任务输入的一致性;environment/Dockerfile定义基于python:3.11-slim-bookworm的基础镜像和任务特定依赖,解决不同运行环境下的结果偏差问题;tests/test.sh作为验证器入口点负责写入奖励信号,为强化学习训练提供明确的反馈依据;tests/verifier.py提供确定性的嵌入式验证器实现,tests/verifier_data.json存储每个任务的验证器输入数据,二者共同保障验证逻辑的可复现性;metadata.json记录数据来源、行索引、任务家族等元数据,方便数据集的管理与溯源;task.toml提供标准Harbor任务配置,明确CPU、内存和超时默认值,降低部署门槛。数据集采用json_schema验证器家族,专门用于解析智能体输出的JSON并验证其是否符合Draft 2020-12 JSON Schema标准,可满足工具调用、API对接、结构化报表生成等多场景的输出合规性验证需求。
本次转换过程由OpenThoughts-Agent项目的适配器生成,全程遵循高安全、可复现原则:所有数据值通过JSON文件传递,不进行代码插值避免注入风险;基础镜像版本固定确保运行环境一致;所有文本字段经过安全处理,tarball生成逻辑具备确定性,彻底解决数据集流转过程中的版本不一致问题。该数据集适用于所有需要可验证奖励信号的强化学习研究,典型应用场景包括大模型复杂指令遵循能力训练、结构化输出效果校准、强化学习奖励模型基准测试、多智能体任务效果验证等,可为通用大模型向垂直可控场景落地提供核心支撑,也为AI训练数据要素的标准化、可信流通提供了实践参考。
查看nemotron-gym-instruction-following-structured





_1769672084863.jpg)