five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

LAION eV发布nemotron-gym-math-openmathreasoning数据集,应用在强化学习数学推理、交互式数学问题求解领域

五号数据雷达开源数据市场2026-05-17 04:1810
nemotron-gym-math-openmathreasoning是LAION eV发布的数据集,于2026-05-16首发在HuggingFace应用于强化学习数学推理、交互式数学问题求解领域

LAION eV本次发布的数据集nemotron-gym-math-openmathreasoning,本数据集是原始数据集nvidia/Nemotron-RL-math-OpenMathReasoning的Harbor格式转换版本,属于NVIDIA NeMo-Gym集合的一部分。数据集专为强化学习任务设计,核心内容围绕数学推理问题。数据采用Harbor任务格式封装,每条记录包含两个字段:`path`(格式为`-.tar.gz`的确定性短ID字符串)和`task_binary`(存储完整Harbor任务的gzip压缩tar二进制数据)。每个任务包内部遵循标准Harbor布局,包含:给智能体的文本提示(`instruction.md`)、基于`python:3.11-slim-bookworm`的Docker环境配置、验证脚本(`tests/test.sh`, `tests/verifier.py`)、验证输入数据(`tests/verifier_data.json`)、记录来源数据集、行索引和任务家族等信息的元数据(`metadata.json`),以及CPU/内存/超时等默认配置(`task.toml`)。验证器采用math_boxed家族,其工作原理是从模型输出中提取oxed格式的数学表达式,并使用sympy库与标准答案进行比较。数据集转换过程强调安全性,确保数据集内容不会插入shell、Python或Dockerfile源代码,所有值通过JSON文件传递;基础镜像固定;进行输入验证和清理;并生成确定性的tarball以实现可复现性。数据集规模属于100K

查看nemotron-gym-math-openmathreasoning

Dataset card内容:

 

Files and versions内容:

 

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们