five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

耶鲁BIDS Xu Lab发布PatientQA_train医患对话数据集 首发HuggingFace赋能医疗NLP研发

五号数据雷达开源数据市场2026-04-23 16:4213
耶鲁大学生物医学数据科学研究所(BIDS)Xu Lab于2024年8月20日在HuggingFace平台首发标注型医患对话数据集PatientQA_train,可广泛应用于医患对话生成、数据集分类等医疗自然语言处理场景,为智慧医疗相关研发提供高质量标注数据支撑。

随着全球智慧医疗产业快速发展,医疗自然语言处理(NLP)作为智能导诊、辅助问诊、医疗内容合规校验等场景的核心技术,长期面临高质量标注级临床交互数据供给不足的瓶颈——医疗数据的隐私性要求高、专业标注成本高,导致中小研发团队很难获取符合训练要求的真实医患对话数据集。近日,耶鲁大学生物医学数据科学研究所(Yale BIDS)Xu Lab正式发布全新医患对话标注数据集PatientQA_train,于2024年8月20日首发上线HuggingFace平台,面向全球科研人员、产业开发者开放下载。耶鲁BIDS是耶鲁大学聚焦生物医学数据交叉研究的核心机构,其旗下Xu Lab长期深耕医疗NLP、临床数据挖掘领域的基础研究与工具开源,本次发布的数据集也是其在医疗对话数据标准化方向的最新成果。

本次发布的PatientQA_train数据集共包含三个核心特征字段:id、conversations和text。其中id为字符串类型,用于唯一标识每个数据条目;conversations为列表结构,内置role和content两个字符串字段,分别对应对话角色与对话内容,完整还原真实医患交互的双方信息;text同样为字符串类型,可承载对话内容总结、场景标注等补充信息。数据集已完成标准化拆分,分为train、valid、test三个子集,分别包含5765、100和100个样本,总下载大小为1976693字节,解压后总大小为4263064字节,轻量化的体积也降低了开发者的下载与训练门槛。

从应用方向来看,PatientQA_train作为标注完成的真实医患对话数据集,可覆盖多个医疗NLP核心研发场景:在医患对话生成方向,可用于训练智能导诊机器人、辅助问诊工具,支撑AI输出符合临床规范的问诊回复、病史采集提示,提升线上医疗咨询的专业性与效率;在数据集分类方向,可作为医疗NLP模型微调的基准数据集,支撑对话场景分类、医疗内容合规性校验等算法研发,帮助平台快速识别非正规医疗建议、错误诊疗指导。此外,该数据集也可应用于医疗对话质量评估、临床指南匹配等方向的研究,为医疗服务质量监管、临床路径优化等场景提供数据支撑。

当前全球数据要素市场中,垂直领域的合规标注数据是数字经济创新的核心生产资料,医疗数据作为高价值的垂直场景数据,其标准化、合规化开放是推动智慧医疗产业落地的核心基础。本次PatientQA_train数据集的开源发布,既填补了公开医患对话标注数据集的供给缺口,也为医疗对话数据的标注范式提供了参考样本,有望降低中小团队开展医疗NLP研发的门槛,推动更多普惠型智慧医疗应用落地。

查看PatientQA_train

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们