首页 / 开源数据市场 / 正文

耶鲁BIDS Xu Lab发布PatientQA_train医患对话数据集首发HuggingFace赋能医疗NLP研发

五号数据雷达开源数据市场2026-04-23 16:4213

耶鲁大学生物医学数据科学研究所（BIDS）Xu Lab于2024年8月20日在HuggingFace平台首发标注型医患对话数据集PatientQA_train，可广泛应用于医患对话生成、数据集分类等医疗自然语言处理场景，为智慧医疗相关研发提供高质量标注数据支撑。

随着全球智慧医疗产业快速发展，医疗自然语言处理（NLP）作为智能导诊、辅助问诊、医疗内容合规校验等场景的核心技术，长期面临高质量标注级临床交互数据供给不足的瓶颈——医疗数据的隐私性要求高、专业标注成本高，导致中小研发团队很难获取符合训练要求的真实医患对话数据集。近日，耶鲁大学生物医学数据科学研究所（Yale BIDS）Xu Lab正式发布全新医患对话标注数据集PatientQA_train，于2024年8月20日首发上线HuggingFace平台，面向全球科研人员、产业开发者开放下载。耶鲁BIDS是耶鲁大学聚焦生物医学数据交叉研究的核心机构，其旗下Xu Lab长期深耕医疗NLP、临床数据挖掘领域的基础研究与工具开源，本次发布的数据集也是其在医疗对话数据标准化方向的最新成果。

本次发布的PatientQA_train数据集共包含三个核心特征字段：id、conversations和text。其中id为字符串类型，用于唯一标识每个数据条目；conversations为列表结构，内置role和content两个字符串字段，分别对应对话角色与对话内容，完整还原真实医患交互的双方信息；text同样为字符串类型，可承载对话内容总结、场景标注等补充信息。数据集已完成标准化拆分，分为train、valid、test三个子集，分别包含5765、100和100个样本，总下载大小为1976693字节，解压后总大小为4263064字节，轻量化的体积也降低了开发者的下载与训练门槛。

从应用方向来看，PatientQA_train作为标注完成的真实医患对话数据集，可覆盖多个医疗NLP核心研发场景：在医患对话生成方向，可用于训练智能导诊机器人、辅助问诊工具，支撑AI输出符合临床规范的问诊回复、病史采集提示，提升线上医疗咨询的专业性与效率；在数据集分类方向，可作为医疗NLP模型微调的基准数据集，支撑对话场景分类、医疗内容合规性校验等算法研发，帮助平台快速识别非正规医疗建议、错误诊疗指导。此外，该数据集也可应用于医疗对话质量评估、临床指南匹配等方向的研究，为医疗服务质量监管、临床路径优化等场景提供数据支撑。

当前全球数据要素市场中，垂直领域的合规标注数据是数字经济创新的核心生产资料，医疗数据作为高价值的垂直场景数据，其标准化、合规化开放是推动智慧医疗产业落地的核心基础。本次PatientQA_train数据集的开源发布，既填补了公开医患对话标注数据集的供给缺口，也为医疗对话数据的标注范式提供了参考样本，有望降低中小团队开展医疗NLP研发的门槛，推动更多普惠型智慧医疗应用落地。

查看PatientQA_train

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

耶鲁BIDS Xu Lab发布PatientQA_train医患对话数据集 首发HuggingFace赋能医疗NLP研发

Dataset card内容：

Files and versions内容：

社区讨论

耶鲁BIDS Xu Lab发布PatientQA_train医患对话数据集首发HuggingFace赋能医疗NLP研发