five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

OpenAI发布HealthBench Professional专业医疗评估数据集 首发HuggingFace赋能医疗AI标准化建设

五号数据雷达开源数据市场2026-04-24 03:1633
2026年4月23日,OpenAI在HuggingFace平台首发专业医疗评估数据集HealthBench Professional,该数据集覆盖多医疗场景、多专科方向且全部经过医师校验,将为医疗AI能力评测、临床研究评估提供标准化参照,推动医疗AI领域的规范化发展。

近年来,全球医疗AI赛道持续高速发展,各类大模型在问诊咨询、病历生成、医学研究辅助等场景的落地应用不断提速,但长期以来,行业缺乏覆盖多专科、多场景、经过专业医师校验的标准化评估数据集,成为制约医疗AI能力验证、合规落地的核心痛点之一。针对这一行业需求,OpenAI正式推出HealthBench Professional医疗领域专业评估数据集,面向医疗健康、专业评估两大领域开放使用。

作为专门面向医疗领域的专业评估工具,HealthBench Professional的核心定位是为临床医生、医疗AI研发人员、医学研究人员提供标准化的能力评估参照体系。数据集全部内容均经过专业医师校验,涵盖多类型医疗对话示例,每个示例都包含完整的结构化字段:核心的对话内容(conversation)覆盖真实医疗场景下的各类诉求,配套的评分项(rubric_items)明确了不同场景下的评估维度,同时标注了对应的使用场景(use_case)、内容类型(type)、难度评级(difficulty)、所属医学专业(specialty),以及由执业医师撰写的标准回复(physician_response),为各类评估工作提供了清晰的参照标准。

从场景划分来看,该数据集覆盖咨询(consult)、写作(writing)、研究(research)三大核心医疗场景,可分别对应问诊应答能力评估、医疗文书生成质量校验、医学问题专业度评测等不同需求;内容类型分为善意(good_faith)、红队测试(red_teaming)两类,其中红队测试样本可用于验证医疗AI对恶意提问、错误医疗诉求的风险识别与应对能力,进一步保障AI应用的安全性;难度则由专业医师评定为typical(常规)和difficult(困难)两个等级,可满足从基础能力测试到高阶专业能力验证的多层级评估需求。

为了降低行业使用门槛,HealthBench Professional采用MIT开源许可证,允许合规范围内的免费商用与二次开发,标记为健康与健康评估相关类目。针对AI研发中常见的数据污染、模型过拟合等问题,该数据集还设置了多重技术保障:内置特定过滤字符串(canary string),可有效识别该数据集是否被违规纳入大模型训练集避免评估失效;同时保留了一部分私有数据,用于检测模型的意外训练或过拟合情况,确保评估结果的公正性与准确性。目前数据集的评估结果基于OpenAI内部实现逻辑生成,同时官方提供了参考实现工具simple-evals,大幅降低了中小机构、研究团队的使用门槛。

从行业价值来看,该数据集的发布有望填补医疗AI专业评估领域的标准化工具空白:对于医疗AI研发企业,可基于该数据集开展模型迭代过程中的持续性能力校验,提升模型的临床适用性;对于科研机构,可将其作为统一基准开展不同医疗大模型的效能对比研究,推动医疗AI技术的标准化发展;对于医疗机构,也可将其作为内部AI工具上线前的评估参照,降低AI临床应用的合规与安全风险。

查看healthbench-professional

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们