five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

OSU NLP Group开源QUEST-RL-Data强化学习专用数据集 赋能对话智能体研发落地

五号数据雷达开源数据市场2026-05-15 11:5711
OSU NLP Group于2026年5月14日在HuggingFace平台首发开源QUEST-RL-Data数据集,作为DeepResearch项目强化学习训练体系的核心数据支撑,覆盖目标导向、开放式两类对话强化学习场景,将为相关领域研发提供标准化、可直接复用的训练样本,降低对话智能体研发门槛。

随着大语言模型技术的快速落地,对话智能体、强化学习微调已经成为自然语言处理领域的核心研发方向,但面向对话场景的强化学习专用训练数据长期存在标注规则不统一、场景覆盖不全、奖励机制配置不透明等痛点,制约了相关技术的普惠化迭代。2026年5月14日,OSU NLP Group正式在HuggingFace平台首发QUEST-RL-Data数据集,该数据集是DeepResearch项目强化学习训练体系下的专用数据切片,专为强化学习训练任务设计,填补了对话类强化学习场景标准化训练数据的部分空白。

据官方介绍,QUEST-RL-Data覆盖两类主流对话强化学习任务场景,分别为目标导向型(objective)任务与开放式(open-ended)任务,可满足不同研发方向的训练需求:其中目标导向型数据集可应用于智能客服、政务服务助理、办公效率工具等需要明确完成特定指令的对话智能体训练,开放式数据集则可支撑闲聊机器人、教育互动问答、创意辅助生成等无明确边界的对话场景研发。

该数据集采用聊天式提示格式,每条样本均配置了标准化关键字段:prompt字段为包含角色和内容的对话列表,研发团队无需额外做格式转换即可直接作为模型输入;reward_model字段以Python字面量字符串形式存储奖励配置信息,部分包含需要自定义解析的numpy风格数组表示,可直接对接强化学习的奖励模型训练环节,解决了此前强化学习训练中奖励规则不统一、复现难度大的问题;ability字段提供高层能力或任务标签,支持研发团队按需筛选对应能力方向的训练样本,大幅提升训练效率;data_source字段标识数据来源(如deepresearch_tasks);extra_info字段以Python字典字符串形式存储额外元数据,为数据集的二次加工、合规溯源提供了完整支撑。

在使用便捷性上,该数据集支持通过HuggingFace datasets库以流式或非流式两种方式加载,同时支持按任务类别快速筛选,也可直接读取Parquet格式文件做本地化处理,适配不同规模团队的研发环境。本次发布的QUEST-RL-Data采用Open Data Commons Attribution License (ODC-BY) v1.0许可证,使用者仅需按照协议标注来源即可进行商用与二次开发,大幅降低了中小研发团队的使用成本。作为AI训练数据领域的新增优质供给,该数据集也将为数据要素市场中AI训练数据的标准化、开源化发展提供参考样本。

查看QUEST-RL-Data

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们