five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

OSU NLP Group开放QUEST系列开放式SFT数据集 覆盖大模型指令微调、开放域对话生成场景

五号数据雷达开源数据市场2026-05-15 11:5818
OSU自然语言处理组(OSU NLP Group)于2026年5月14日在HuggingFace首发QUEST-SFT-Data-Open-ended数据集,该数据集为开放式对话场景专用监督微调训练数据,采用宽松的ODC-BY v1.0许可,可支撑开放域对话生成、大语言模型指令微调等多个研发场景。

近年来大语言模型商业化落地进程加速,监督微调(SFT)作为对齐大模型能力、优化特定场景表现的核心环节,高质量场景化训练数据已成为AI研发团队的核心刚需。其中开放域多轮对话类训练数据由于标注成本高、场景复杂度高,优质开源供给始终相对稀缺,成为制约通用对话类大模型能力迭代的重要因素之一。近日,OSU NLP Group正式在HuggingFace平台首发开放域对话类SFT数据集QUEST-SFT-Data-Open-ended,面向全球AI开发者与科研人员开放下载。

据公开信息显示,本次发布的QUEST-SFT-Data-Open-ended隶属于QUEST项目体系,是专门针对开放式对话场景打造的监督微调专用数据集,核心特点是收录了大量符合真实交互逻辑的开放式对话轨迹,能够覆盖普通用户日常交互中无固定任务导向的多元对话需求。当前该数据集仅开放训练集分割,整体采用结构化形式组织,核心数据列名为“messages”,目前官方README文档暂未公开该列的内部数据格式与具体内容示例。数据集采用Open Data Commons Attribution License (ODC-BY) v1.0许可协议,使用者仅需标注来源即可对数据集进行自由使用、修改、二次分发,甚至可用于商业化研发场景,对中小研发团队友好度较高。

从行业应用视角来看,该类开放式对话SFT数据集的应用空间十分广阔:在产业侧可用于通用AI助手、陪伴式AI、开放式智能客服等产品的大模型微调,优化大模型在无固定任务场景下的上下文理解能力、多轮对话连贯性与回复自然度;在科研侧可用于开放域对话生成算法优化、大模型指令遵循能力泛化、对话安全对齐等多个NLP研究方向的验证训练。随着开源AI生态的不断完善,此类高质量垂直场景训练数据的开放,也将进一步降低大模型研发的门槛,推动AI应用的多元创新。

查看QUEST-SFT-Data-Open-ended

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们