five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

LAION eV发布nemotron-gym-agent-calendar强化学习数据集 支撑智能日历调度与决策类Agent训练

五号数据雷达开源数据市场2026-05-17 04:0512
全球知名开源AI数据集机构LAION eV于2026年5月16日在HuggingFace首发nemotron-gym-agent-calendar数据集,该数据集为英伟达原有日历调度强化学习数据集的Harbor格式转换版本,主打可验证奖励任务适配,可直接对接Harbor框架,为智能日历优化、任务调度类AI模型与Agent的训练评估提供标准化数据支撑。

随着生成式AI与智能Agent技术加速向垂直事务场景落地,日程调度、任务分配等约束性决策能力,已经成为AI替代人工完成结构化办公、生产事务的核心能力,而面向该场景的高质量、可复现、带标准化验证机制的强化学习数据集,一直是行业的稀缺资源。作为全球范围内最具影响力的开源AI数据集研发机构之一,LAION eV此前推出的LAION-5B等多模态数据集,已经成为Stable Diffusion等多款主流生成式AI模型的核心训练底座,近年其也在持续布局垂直场景、决策类AI的训练数据集供给。

2026年5月16日,LAION eV正式在HuggingFace平台上线nemotron-gym-agent-calendar数据集,该数据集是nvidia/Nemotron-RL-agent-calendar_scheduling的Harbor格式转换版本,归属强化学习领域,特别聚焦可验证奖励任务的训练与评估需求,专为日历调度场景设计,包含约1000至10000个任务样本。

该数据集的每条数据包含两个核心字段:path字段为确定性的短ID字符串,格式为`<家族>-.tar.gz`,可实现数据集样本的快速溯源与定位;task_binary字段为gzip压缩的tar归档二进制数据,内含完整的Harbor任务包。任务包采用标准Harbor布局,包含多类支撑强化学习训练的核心文件:给智能体展示的提示文本(instruction.md),可模拟真实场景下用户提出的日程安排、任务调度需求;基于python:3.11-slim-bookworm镜像并添加特定pip依赖的Docker环境配置(environment/Dockerfile),可保障不同研发团队、不同设备运行任务时的环境一致性,避免“本地可运行、上线就报错”的兼容问题;验证器入口脚本及实现(tests/test.sh, tests/verifier.py)、每个任务特定的验证器输入数据JSON文件(tests/verifier_data.json),则对应强化学习的可验证奖励机制,无需人工标注即可自动判定智能体输出的调度方案是否符合约束、完成任务目标,大幅降低训练评估的人力成本;记录来源数据集、行索引、任务家族等信息的元数据(metadata.json),以及包含CPU/内存/超时等默认配置的标准任务配置文件(task.toml),则进一步保障了数据集的可溯源性与运行参数标准化。

为了保障数据集的安全性与可复现性,本次格式转换过程严格遵循多重安全原则:所有数据集内容均通过JSON文件在运行时传递,绝不插值到Shell、Python或Dockerfile源代码中,从根源上避免代码注入风险;基础镜像名称固定,pip依赖规格通过严格的正则表达式白名单验证,避免不可信依赖引入的安全漏洞;文本字段已清除控制字符并限制长度,压缩包路径经过防遍历等安全验证,避免路径穿越等恶意攻击风险;生成的压缩包具有确定性,条目排序、修改时间、用户/组ID均标准化,可实现字节级的运行结果复现,解决了此前强化学习数据集普遍存在的复现难、不同团队测试结果不可比的行业痛点。

从落地场景来看,该数据集适用于训练和评估智能体在遵循指令的日历约束环境下进行决策和调度,可与Harbor框架直接集成运行,应用空间十分广泛:在C端消费级产品场景,可用于训练智能日历、个人AI助理的自动调度能力,实现根据用户的日程冲突、任务优先级、通勤时长等约束自动安排待办、会议时间,无需用户手动调整;在B端企业服务场景,既可以支撑团队会议自动排班、项目任务自动分配等办公数字化需求,也可以延伸到制造企业生产任务调度、物流企业配送路径排期等同类约束性调度场景;在学术研究领域,这套标准化、带自动验证机制的数据集也可以作为通用基准,用于对比不同强化学习算法在约束决策任务上的性能表现,推动决策类AI技术的迭代。

业内分析指出,当前数据要素市场中,面向垂直场景的AI训练数据集供给缺口较大,尤其是决策类强化学习数据集,普遍存在标准化程度低、验证机制缺失、安全风险不可控等问题,LAION本次推出的nemotron-gym-agent-calendar数据集,既填补了日历调度垂直场景的高质量强化学习数据集空白,也为其他垂直领域强化学习数据集的规范化制作、格式转换提供了可参考的范本,对推动决策类AI落地、完善AI训练数据要素供给体系都有积极意义。

查看nemotron-gym-agent-calendar

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们