首页 / 开源数据市场 / 正文

美国国立卫生研究院联合BioCreative IX发布MedHopQA基准数据集填补生物医学多跳推理与罕见病研究数据空白

五号数据雷达开源数据市场2026-05-14 05:3719

2026年5月12日，美国国立卫生研究院联合BioCreative IX挑战赛组委会在预印本平台arXiv首发MedHopQA生物医学多跳问答基准数据集，为生物医学领域大模型复杂推理能力的训练与评测提供标准化支撑，有望推动罕见病诊疗、临床决策支持等场景的医疗AI技术落地。

随着大语言模型在生物医疗领域的落地进程加快，复杂场景下的多步知识推理能力不足、专用评测基准缺失，已成为制约医疗AI可靠性、可解释性提升的核心瓶颈。尤其是罕见病、基因靶点研究、药物研发等场景，大量核心知识分散在不同知识库、研究文献中，需要模型具备跨节点的信息整合与推理能力，而此前全球范围内面向该场景的高质量标注基准数据集供给长期不足。

本次由美国国立卫生研究院（NIH）主导、BioCreative IX挑战赛组委会参与构建的MedHopQA数据集，是赛事官方指定的生物医学多跳问答基准资源，核心目标正是推动大语言模型在复杂推理任务上的技术迭代，该数据集已于2026年5月12日正式首发于预印本平台arXiv。作为全球历史最久、影响力最大的生物信息学文本挖掘专业赛事，BioCreative系列挑战赛长期致力于为生物医学文本处理技术提供统一评测标准，本次推出的MedHopQA也是赛事组委会针对当前医疗大模型技术痛点打造的核心基准资源。

据披露，MedHopQA数据集共包含1000组经过多轮人工校验的结构化问答对，内容重点覆盖罕见病、基因功能、化学物质关联三大垂直领域，所有问题均需模型整合两个独立维基百科页面的公开知识、完成两跳逻辑推理才能得出正确答案。为保障数据集的专业性与评测准确性，数据集构建团队在公开维基百科内容的基础上，通过人工筛选、组合相关实体知识形成具备足够难度梯度的多步推理问题，同时引入临床同义词词典、概念级语义评估策略，规避传统字符串匹配评估带来的语义误差，大幅提升了答案判定的准确性与合理性。

从应用方向来看，MedHopQA数据集可广泛应用于生物医学信息检索与合成、临床决策支持、人工智能辅助科研等多个场景：针对科研人员，基于该数据集训练的大模型可快速整合分散在不同数据源中的生物医学知识，降低跨库信息排查的时间成本，提升基因研究、药物靶点筛选的效率；针对临床场景，该数据集支撑的多跳推理模型可辅助医生整合患者症状、基因检测结果、罕见病公开研究成果等多维度信息，为罕见病的早期筛查、精准诊断提供参考依据，破解当前罕见病诊疗周期长、误诊率高的行业痛点；针对AI技术研发，该数据集也为生物医学大模型的推理能力评测提供了统一的标准化基准，推动行业研发更具可解释性、可靠性的医疗AI系统。

作为数据要素在生物医药领域的典型高价值资产，MedHopQA的发布填补了全球生物医学多跳推理专用基准数据集的空白，对于完善生物医疗AI产业的基础设施供给、加快医疗AI技术的合规落地、推动数字技术与生物医药产业的深度融合均具备重要的行业意义。

查看MedHopQA

详情页内容：

社区讨论

近期热门

美国国立卫生研究院联合BioCreative IX发布MedHopQA基准数据集 填补生物医学多跳推理与罕见病研究数据空白

详情页内容：

社区讨论

美国国立卫生研究院联合BioCreative IX发布MedHopQA基准数据集填补生物医学多跳推理与罕见病研究数据空白