首页 / 开源数据市场 / 正文

伯明翰大学发布全球首套印欧语系平行医疗对话数据集IndicMedDialog 破解低资源语言医疗NLP数据瓶颈

五号数据雷达开源数据市场2026-05-15 08:0616

2026年5月13日，英国伯明翰大学研究团队在预印本平台arXiv首发全球首个覆盖英语及9种印度本土语言的平行多轮医疗对话数据集IndicMedDialog，可为多语言医疗对话系统研发、低资源区域数字医疗服务落地提供核心数据支撑，助力提升欠发达地区医疗可及性。

随着全球医疗数字化转型加速，医疗自然语言处理（NLP）技术已成为提升医疗可及性、降低基层诊疗门槛的核心工具，但长期以来，全球医疗NLP训练数据高度集中于英语等少数高资源语言，占全球人口多数的欠发达地区本土语言属于低资源语言，缺乏高质量标注的医疗对话数据，直接导致当地医疗AI产品落地难、适配性差，大量不会通用语的民众无法享受到数字医疗服务。作为多语言人口大国，印度本土有数十种官方及地方语言，这一矛盾尤为突出，也成为南亚区域数字健康发展的核心瓶颈之一。

2026年5月13日，英国伯明翰大学牵头的研究团队在预印本平台arXiv正式发布IndicMedDialog数据集，这也是全球首个覆盖英语及9种印度本土语言的平行多轮医疗对话数据集，核心目标就是破解低资源语言医疗AI研发的数据供给难题，提升南亚区域的医疗可及性。

据介绍，IndicMedDialog是基于成熟的MDDial医疗对话数据集扩展而来，研究团队首先通过Llama-3.3-70B大语言模型生成符合真实临床逻辑的合成医患咨询内容，再经TranslateGemma翻译为9种印度本土语言，所有翻译内容均经过对应语言的母语医疗从业者验证，确保医学表述的准确性和语言表达的本土化。目前该数据集共包含2,980条平行多轮对话，总计29,800个语言实例，覆盖12种常见疾病类别和118种典型症状，完整还原了真实医患从主诉、问诊到初步建议的全交互流程，弥补了传统单轮问答模板在临床现实性、交互连贯性和语言多样性方面的普遍缺陷。

从应用价值来看，该数据集首先可为多语言医疗对话系统的训练提供核心数据支撑，基于多轮平行对话训练出的AI问诊产品，可适配更复杂的真实诊疗场景，实现连续问诊、症状交叉验证等能力，大幅提升智能问诊的准确率。其次，针对9种印度低资源语言的标注数据，可直接支撑对应语言的医疗NLP工具开发，未来可落地于基层智能问诊终端、移动医疗APP等场景，让仅掌握本土小语种的民众也能通过母语获得专业的初步医疗建议，减少非必要的就医需求，缓解基层医疗资源挤兑。此外，该数据集也可用于跨境医疗翻译工具优化、跨区域公共卫生舆情监测等场景，为多语言环境下的医疗资源调度、流行病预警提供数据支撑。

在全球数据要素市场建设进程中，垂直领域的高质量多语言标注数据一直是稀缺资源，尤其是医疗这类强专业属性的领域，合规、准确的跨语言数据供给直接决定了数字健康服务的普惠性。IndicMedDialog的发布，不仅填补了印欧语系低资源语言医疗对话数据的空白，也为全球跨语言医疗数据集的构建、验证流程提供了可参考的标准样本，对推动全球数字健康公平、缩小不同区域间的数字医疗鸿沟具有重要的行业示范意义。

查看IndicMedDialog

详情页内容：

社区讨论

近期热门