首页 / 开源数据市场 / 正文

OSU NLP Group开源QUEST-RL-Data强化学习专用数据集赋能对话智能体研发落地

五号数据雷达开源数据市场2026-05-15 11:5711

OSU NLP Group于2026年5月14日在HuggingFace平台首发开源QUEST-RL-Data数据集，作为DeepResearch项目强化学习训练体系的核心数据支撑，覆盖目标导向、开放式两类对话强化学习场景，将为相关领域研发提供标准化、可直接复用的训练样本，降低对话智能体研发门槛。

随着大语言模型技术的快速落地，对话智能体、强化学习微调已经成为自然语言处理领域的核心研发方向，但面向对话场景的强化学习专用训练数据长期存在标注规则不统一、场景覆盖不全、奖励机制配置不透明等痛点，制约了相关技术的普惠化迭代。2026年5月14日，OSU NLP Group正式在HuggingFace平台首发QUEST-RL-Data数据集，该数据集是DeepResearch项目强化学习训练体系下的专用数据切片，专为强化学习训练任务设计，填补了对话类强化学习场景标准化训练数据的部分空白。

据官方介绍，QUEST-RL-Data覆盖两类主流对话强化学习任务场景，分别为目标导向型（objective）任务与开放式（open-ended）任务，可满足不同研发方向的训练需求：其中目标导向型数据集可应用于智能客服、政务服务助理、办公效率工具等需要明确完成特定指令的对话智能体训练，开放式数据集则可支撑闲聊机器人、教育互动问答、创意辅助生成等无明确边界的对话场景研发。

该数据集采用聊天式提示格式，每条样本均配置了标准化关键字段：prompt字段为包含角色和内容的对话列表，研发团队无需额外做格式转换即可直接作为模型输入；reward_model字段以Python字面量字符串形式存储奖励配置信息，部分包含需要自定义解析的numpy风格数组表示，可直接对接强化学习的奖励模型训练环节，解决了此前强化学习训练中奖励规则不统一、复现难度大的问题；ability字段提供高层能力或任务标签，支持研发团队按需筛选对应能力方向的训练样本，大幅提升训练效率；data_source字段标识数据来源（如deepresearch_tasks）；extra_info字段以Python字典字符串形式存储额外元数据，为数据集的二次加工、合规溯源提供了完整支撑。

在使用便捷性上，该数据集支持通过HuggingFace datasets库以流式或非流式两种方式加载，同时支持按任务类别快速筛选，也可直接读取Parquet格式文件做本地化处理，适配不同规模团队的研发环境。本次发布的QUEST-RL-Data采用Open Data Commons Attribution License (ODC-BY) v1.0许可证，使用者仅需按照协议标注来源即可进行商用与二次开发，大幅降低了中小研发团队的使用成本。作为AI训练数据领域的新增优质供给，该数据集也将为数据要素市场中AI训练数据的标准化、开源化发展提供参考样本。

查看QUEST-RL-Data

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

OSU NLP Group开源QUEST-RL-Data强化学习专用数据集 赋能对话智能体研发落地

Dataset card内容：

Files and versions内容：

社区讨论

OSU NLP Group开源QUEST-RL-Data强化学习专用数据集赋能对话智能体研发落地