随着全球医疗数字化转型持续推进,电子健康记录(EHR)已成为临床数据流转、医疗服务数字化的核心载体,而符合HL7 FHIR国际标准的结构化EHR更是实现跨机构数据互通、临床AI落地的核心基础。但长期以来,临床AI模型的训练与评测多基于非结构化的病历文本数据,与真实医疗场景中标准化、结构化的EHR数据格式存在明显错位,直接导致大量AI模型在实验室环境下表现优异,接入真实医疗系统后诊断准确率大幅下滑;与此同时,真实临床数据的隐私合规要求极高,也进一步抬高了医疗AI研发的数据源获取门槛。2026年5月29日,System Inc.在预印本平台arXiv首发的MedCase-Structured数据集,正是瞄准这一行业痛点推出的解决方案。
MedCase-Structured是由System Inc.创建的临床现实合成数据集,旨在为电子健康记录(EHR)环境中的诊断推理提供结构化基准。该数据集基于MedCaseReasoning的约14,500个诊断案例,通过多阶段生成流程将非结构化文本转换为术语验证的HL7 FHIR R4患者捆绑包,最终包含1,408条有效数据,覆盖患者人口统计、症状、实验室结果等多维临床信息。数据创建过程结合了大型语言模型分阶段生成、术语接地验证与修复技术,确保FHIR资源的结构与语义一致性,成功转换率达82.5%。
作为完全符合国际医疗数据互操作标准的合成数据集,MedCase-Structured不存在真实患者隐私泄露风险,可广泛应用于多个医疗数字化场景:一是用于临床决策支持系统的评估与训练,解决当前结构化、可互操作的EHR格式下模型诊断准确性下降的普遍问题,帮助研发团队提前对齐真实生产环境的数据标准,降低AI模型上线后的性能落差;二是可作为基准测试集,用于验证不同医疗机构EHR系统的互操作性与数据标准化水平;三是可应用于医疗大模型多模态能力评测、医学生临床诊断辅助教学等多个领域,推动医疗AI领域对齐的基准测试体系发展。
首页 / 开源数据市场 / 正文
System Inc.发布MedCase-Structured标准化临床合成数据集 破解医疗AI落地EHR适配难题
五号数据雷达开源数据市场2026-05-30 07:114
2026年5月29日,System Inc.在预印本平台arXiv首发MedCase-Structured临床合成数据集,该数据集兼容国际HL7 FHIR R4医疗数据互操作标准,可支撑电子健康记录结构化、临床诊断推理AI模型的训练与评测,为医疗AI落地过程中的数据格式适配痛点提供标准化基准支撑。

社区讨论
近期热门




_1769672084863.jpg)