five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

LAION eV发布日历场景强化学习专用数据集 为指令跟随类智能体提供标准化训练支撑

五号数据雷达开源数据市场2026-05-21 19:518
全球知名开源AI数据集机构LAION eV于2026年5月16日在HuggingFace首发nemotron-gym-instruction-following-calendar数据集,作为NVIDIA原同系列数据集的Harbor格式转换版本,该数据集专门面向强化学习指令跟随、日历任务智能体研发场景,填补了日程管理类AI训练的标准化素材缺口。

随着大模型技术向垂直场景落地,具备自然语言理解、自主任务执行能力的AI智能体成为产业研发热点,其中日程统筹、预约调度等日历相关场景,是个人助理、办公自动化、企业服务等领域的高频需求,但长期以来,该领域强化学习训练缺乏统一格式、统一验证标准的公开数据集,导致不同团队训练的智能体泛化能力不足、效果难以横向对比。作为全球最具影响力的开源AI数据集机构之一,LAION eV此前曾推出支撑Stable Diffusion等跨时代生成式AI产品的大规模训练数据集,在AI训练数据的标准化、开源化领域拥有丰富的行业积累。

本次LAION eV发布的nemotron-gym-instruction-following-calendar数据集,是NVIDIA Nemotron-RL-Instruction-Following-Calendar-v2数据集的Harbor格式转换版本,属于NeMo-Gym集合的一部分,专门设计用于强化学习任务,特别是指令跟随日历相关场景。

数据集中每个样本包含两个核心字段:path字段为确定性短ID(格式为-.tar.gz),可支撑训练过程中的快速溯源、批量调度与版权核验;task_binary字段为包含完整Harbor任务的gzip压缩tar包,内部遵循标准Harbor任务布局,覆盖从输入提示、运行环境到结果验证的全流程标准化配置:其中instruction.md为统一规范的智能体提示文本,确保不同模型训练的输入标准一致;environment/Dockerfile采用python:3.11-slim-bookworm作为基础镜像,预置任务特定的pip依赖,解决了AI训练中常见的环境差异导致的结果不可复现问题;tests目录下的test.sh、verifier.py、verifier_data.json构成完整的结果验证体系,搭配专门的calendar_constraints验证器家族,可自动解析智能体输出的JSON日程列表,精准检查每个事件的持续时间、时间窗口、约束冲突等核心指标是否符合指令要求;metadata.json与task.toml则分别承载数据溯源信息与标准化运行配置,进一步提升数据集的易用性与可扩展性。

值得关注的是,该数据集的转换过程全程遵循安全构建原则,所有内容不会直接插入到shell、Python或Dockerfile源代码中,全部参数值通过JSON文件在运行时解析,从源头上避免了数据集投毒、恶意代码注入等AI训练安全风险,适配学术研究与产业级应用的安全要求。

目前该数据集规模处于1K

查看nemotron-gym-instruction-following-calendar

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们