LAION eV本次发布的数据集nemotron-gym-math-stack-overflow,该数据集是 nvidia/Nemotron-RL-math-stack_overflow 数据集的 Harbor 格式转换版本,属于 NVIDIA NeMo-Gym 集合的一部分。它是一个专门为强化学习(RL)任务设计的数学问题数据集,侧重于可验证奖励(verifiable-rewards)场景。数据集规模在 10 万到 100 万样本之间。每个数据样本(行)包含两个字段:path 是一个确定性的短标识符字符串,格式为 <家族>-.tar.gz;task_binary 是一个经过 gzip 压缩的 tar 归档文件,其中封装了一个完整的 Harbor 任务。该任务包内部遵循标准 Harbor 布局,包含以下关键文件:instruction.md(呈现给智能体或模型的提示文本),environment/Dockerfile(定义了基于 python:3.11-slim-bookworm 镜像并安装了特定 Python 依赖的运行环境),tests/ 目录下的验证脚本(test.sh 为入口点,verifier.py 为具体的验证器实现,verifier_data.json 以 JSON 格式存储每项任务验证所需的输入数据),以及 metadata.json(记录数据来源、行索引、任务家族等元数据)和 task.toml(配置 CPU、内存、超时等默认参数)。验证器家族为 math_boxed,其核心逻辑是从模型响应中提取 oxed... 格式的答案,并使用 SymPy 与标准答案进行比较。数据转换过程由 OpenThoughts-Agent 项目中的工具完成,设计上确保了安全性,例如避免将数据内容插值到代码中、对输入进行严格验证和清理、并生成确定性的任务包。该数据集适用于训练和评估强化学习智能体在解决数学问题(可能源自 Stack Overflow 风格)并接受自动验证的环境中的表现。
查看nemotron-gym-math-stack-overflow
Dataset card内容:
Files and versions内容: