首页 / 开源数据市场 / 正文

OSU NLP Group开放QUEST系列开放式SFT数据集覆盖大模型指令微调、开放域对话生成场景

五号数据雷达开源数据市场2026-05-15 11:5818

OSU自然语言处理组（OSU NLP Group）于2026年5月14日在HuggingFace首发QUEST-SFT-Data-Open-ended数据集，该数据集为开放式对话场景专用监督微调训练数据，采用宽松的ODC-BY v1.0许可，可支撑开放域对话生成、大语言模型指令微调等多个研发场景。

近年来大语言模型商业化落地进程加速，监督微调（SFT）作为对齐大模型能力、优化特定场景表现的核心环节，高质量场景化训练数据已成为AI研发团队的核心刚需。其中开放域多轮对话类训练数据由于标注成本高、场景复杂度高，优质开源供给始终相对稀缺，成为制约通用对话类大模型能力迭代的重要因素之一。近日，OSU NLP Group正式在HuggingFace平台首发开放域对话类SFT数据集QUEST-SFT-Data-Open-ended，面向全球AI开发者与科研人员开放下载。

据公开信息显示，本次发布的QUEST-SFT-Data-Open-ended隶属于QUEST项目体系，是专门针对开放式对话场景打造的监督微调专用数据集，核心特点是收录了大量符合真实交互逻辑的开放式对话轨迹，能够覆盖普通用户日常交互中无固定任务导向的多元对话需求。当前该数据集仅开放训练集分割，整体采用结构化形式组织，核心数据列名为“messages”，目前官方README文档暂未公开该列的内部数据格式与具体内容示例。数据集采用Open Data Commons Attribution License (ODC-BY) v1.0许可协议，使用者仅需标注来源即可对数据集进行自由使用、修改、二次分发，甚至可用于商业化研发场景，对中小研发团队友好度较高。

从行业应用视角来看，该类开放式对话SFT数据集的应用空间十分广阔：在产业侧可用于通用AI助手、陪伴式AI、开放式智能客服等产品的大模型微调，优化大模型在无固定任务场景下的上下文理解能力、多轮对话连贯性与回复自然度；在科研侧可用于开放域对话生成算法优化、大模型指令遵循能力泛化、对话安全对齐等多个NLP研究方向的验证训练。随着开源AI生态的不断完善，此类高质量垂直场景训练数据的开放，也将进一步降低大模型研发的门槛，推动AI应用的多元创新。

查看QUEST-SFT-Data-Open-ended

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

OSU NLP Group开放QUEST系列开放式SFT数据集 覆盖大模型指令微调、开放域对话生成场景

Dataset card内容：

Files and versions内容：

社区讨论

OSU NLP Group开放QUEST系列开放式SFT数据集覆盖大模型指令微调、开放域对话生成场景