首页 / 开源数据市场 / 正文

耶鲁BIDS Xu Lab开源十万级标注医疗对话数据集HealthCareMagic_train 赋能医疗AI研发落地

五号数据雷达开源数据市场2026-04-23 16:3614

2024年8月14日，耶鲁大学数据科学研究所（BIDS）Xu Lab在全球知名AI开源社区HuggingFace首发HealthCareMagic_train数据集，该数据集包含超11万条标准化医患对话标注样本，可广泛应用于医疗对话系统开发、医疗大模型训练、临床自然语言处理研究等领域，为医疗AI赛道提供了高质量的公开训练数据支撑。

随着全球医疗数字化转型持续推进，医疗AI成为数字健康领域的核心增长赛道，而垂直场景下的高质量标注数据，始终是制约医疗自然语言处理（NLP）技术落地的核心瓶颈之一。本次发布HealthCareMagic_train数据集的耶鲁大学数据科学研究所（Yale BIDS），是耶鲁大学旗下专注跨领域数据科学研究、产学研成果转化的顶级研究机构，其下属Xu Lab长期深耕医疗数据治理、临床自然语言处理、医疗AI模型研发等交叉方向，此次发布的数据集是该实验室在医疗数据开源领域的最新成果，首发平台HuggingFace是当前全球规模最大的AI开源社区，汇聚了全球绝大多数公开的AI模型与训练数据集资源，本次数据集上线后将面向全球科研人员、企业研发团队开放下载。

HealthCareMagic_train数据集共设置三类核心字段：字符串类型的id字段用于唯一标识每条数据条目；列表格式的conversations字段包含role（对话角色）与content（对话内容）两类字符串子字段，完整还原真实医患交互的全流程信息；字符串类型的text字段可承载额外的补充文本信息。数据集按训练、验证、测试场景拆分三大子集，其中train集包含112015个样本，valid集、test集各包含100个样本，数据集总下载体积为112414961字节，解压后总大小达204936998字节，是目前公开医疗对话数据集中样本量、标注完备度都处于较高水平的资源。

从应用场景来看，该数据集可广泛应用于多个医疗数字化场景的技术研发：其一可用于医疗对话大模型的微调训练与对齐，提升大模型在医患交互场景下的专业术语准确性、问诊逻辑合理性，降低大模型“幻觉”发生概率；其二可支撑智能预问诊、智能导诊系统的开发，通过模拟真实医患对话流程优化导诊效率，为基层医疗机构、互联网医院降低服务人力成本；其三可用于临床自然语言处理研究，支撑对话意图识别、临床信息自动抽取、医疗问答匹配等技术的迭代优化；其四还可为医疗服务质量评估、医患沟通规范研究等公共卫生领域研究提供数据支撑。

在全球数据要素市场建设、医疗数字化改革持续推进的背景下，垂直领域高质量开源数据集的发布，对降低行业研发门槛、推动技术普惠有着重要意义。医疗领域数据因涉及隐私安全、专业门槛较高，合规可公开的标注数据资源长期稀缺，本次耶鲁BIDS Xu Lab发布的数据集，为全球医疗AI研发团队、科研机构提供了新的优质数据选择，也为后续医疗数据的合规开放、流通共享提供了参考范式。

查看HealthCareMagic_train

Dataset card内容：

Files and versions内容：

社区讨论

近期热门