随着全球医疗数字化转型加速,医疗自然语言处理(NLP)技术已成为提升医疗可及性、降低基层诊疗门槛的核心工具,但长期以来,全球医疗NLP训练数据高度集中于英语等少数高资源语言,占全球人口多数的欠发达地区本土语言属于低资源语言,缺乏高质量标注的医疗对话数据,直接导致当地医疗AI产品落地难、适配性差,大量不会通用语的民众无法享受到数字医疗服务。作为多语言人口大国,印度本土有数十种官方及地方语言,这一矛盾尤为突出,也成为南亚区域数字健康发展的核心瓶颈之一。
2026年5月13日,英国伯明翰大学牵头的研究团队在预印本平台arXiv正式发布IndicMedDialog数据集,这也是全球首个覆盖英语及9种印度本土语言的平行多轮医疗对话数据集,核心目标就是破解低资源语言医疗AI研发的数据供给难题,提升南亚区域的医疗可及性。
据介绍,IndicMedDialog是基于成熟的MDDial医疗对话数据集扩展而来,研究团队首先通过Llama-3.3-70B大语言模型生成符合真实临床逻辑的合成医患咨询内容,再经TranslateGemma翻译为9种印度本土语言,所有翻译内容均经过对应语言的母语医疗从业者验证,确保医学表述的准确性和语言表达的本土化。目前该数据集共包含2,980条平行多轮对话,总计29,800个语言实例,覆盖12种常见疾病类别和118种典型症状,完整还原了真实医患从主诉、问诊到初步建议的全交互流程,弥补了传统单轮问答模板在临床现实性、交互连贯性和语言多样性方面的普遍缺陷。
从应用价值来看,该数据集首先可为多语言医疗对话系统的训练提供核心数据支撑,基于多轮平行对话训练出的AI问诊产品,可适配更复杂的真实诊疗场景,实现连续问诊、症状交叉验证等能力,大幅提升智能问诊的准确率。其次,针对9种印度低资源语言的标注数据,可直接支撑对应语言的医疗NLP工具开发,未来可落地于基层智能问诊终端、移动医疗APP等场景,让仅掌握本土小语种的民众也能通过母语获得专业的初步医疗建议,减少非必要的就医需求,缓解基层医疗资源挤兑。此外,该数据集也可用于跨境医疗翻译工具优化、跨区域公共卫生舆情监测等场景,为多语言环境下的医疗资源调度、流行病预警提供数据支撑。
在全球数据要素市场建设进程中,垂直领域的高质量多语言标注数据一直是稀缺资源,尤其是医疗这类强专业属性的领域,合规、准确的跨语言数据供给直接决定了数字健康服务的普惠性。IndicMedDialog的发布,不仅填补了印欧语系低资源语言医疗对话数据的空白,也为全球跨语言医疗数据集的构建、验证流程提供了可参考的标准样本,对推动全球数字健康公平、缩小不同区域间的数字医疗鸿沟具有重要的行业示范意义。





_1769672084863.jpg)