five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

LAION eV发布百万级开放知识问答数据集 强化学习智能体训练新增标准化工具

五号数据雷达开源数据市场2026-05-21 19:207
全球领先开源AI数据集机构LAION eV于2026年5月18日在HuggingFace首发nemotron-gym-knowledge-openqa-v2数据集,作为NVIDIA NeMo-Gym生态的Harbor格式转换版本,该数据集可直接支撑强化学习智能体训练、开放领域知识问答等场景的研发与评估,有效降低行业研发成本。

随着通用人工智能Agent赛道进入爆发期,开放领域知识问答能力作为智能体认知能力的核心评价维度,长期面临训练评估数据标准化程度低、环境复现难、安全风险不可控等行业痛点。作为全球最具影响力的开源AI数据集贡献机构,LAION(Large-scale Artificial Intelligence Open Network)eV本次发布的nemotron-gym-knowledge-openqa-v2数据集,恰好为解决上述痛点提供了开箱即用的解决方案。

据了解,本次发布的数据集是nvidia/Nemotron-RL-knowledge-openqa的Harbor格式转换版本,隶属于NVIDIA NeMo-Gym任务集合,专门面向强化学习场景设计。数据集样本量覆盖10万至100万量级,每条样本对应一个独立的知识开放问答任务,全部采用Harbor标准化任务格式封装。每个样本仅包含两个核心字段:path字段为确定性短ID,格式为-.tar.gz,可实现数据的快速溯源与定位;task_binary为gzip压缩的tar二进制数据,内含完整的Harbor任务结构,无需额外适配即可直接在兼容环境中运行。

具体来看,每条样本的Harbor任务结构覆盖从环境配置到结果验证的全流程需求:其中instruction.md为提供给智能体的标准化提示文本,确保不同研发团队的输入条件统一;environment/Dockerfile基于python:3.11-slim-bookworm构建,内置任务所需的全部依赖,彻底解决不同开发环境下的复现难题;tests/目录下搭载完整的验证工具链,包含验证器入口test.sh、验证逻辑实现verifier.py以及验证输入数据verifier_data.json,可实现任务结果的自动评估;metadata.json记录数据来源、行索引、家族等元数据,满足数据溯源与合规需求;task.toml为标准Harbor任务配置文件,预置了CPU、内存、超时时间等运行参数,无需额外调整即可快速启动任务。

针对AI训练数据集普遍存在的安全隐患与可复现性不足问题,本次格式转换过程设置了多维度安全与可靠性校验机制:数据集内容不会直接插入到shell、Python或Dockerfile源代码中,所有参数值均通过JSON文件传递,避免注入攻击风险;基础镜像固定为官方指定版本,杜绝依赖供应链攻击;所有文本字段均经过控制字符过滤与长度限制,避免异常字符导致的运行故障;tarball路径经过遍历攻击等专项验证,防止文件写入异常;同时所有tarball均采用排序条目、固定时间戳和用户组的构建方式,确保字节级可复现,满足科研与工业级实验的可重复性要求。

针对开放领域知识问答答案灵活性高、难以通过规则匹配评估的痛点,该数据集的验证器采用llm_judge家族方案,默认通过LiteLLM对接openai/gpt-4o-mini模型,以参考答案为基准对可转述的长答案进行语义等效性评判,大幅提升开放类问答任务的评估效率与准确性。目前该数据集可广泛应用于强化学习智能体的认知能力训练与效果评估、通用大模型开放问答能力基准测试、垂直领域问答系统的微调训练、RLHF偏好数据集补充等场景,有效降低相关研发工作的数据准备与环境配置成本。

从行业发展维度来看,本次数据集的发布是AI训练数据要素标准化的重要实践。随着数据要素成为AI产业发展的核心生产资料,标准化、可复现、安全可控的数据集产品,将大幅降低AI研发的门槛,推动通用智能体等前沿领域的技术迭代加速,为数字经济核心产业的创新发展提供基础支撑。

查看nemotron-gym-knowledge-openqa-v2

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们