随着全球人口老龄化程度持续加深,痴呆症等认知障碍疾病的早筛早诊已成为公共卫生领域的核心课题之一。目前基于语言特征的AI辅助筛查是临床领域的重要研发方向,但长期以来,相关标注语料库大多以英语等高资源语言为主,东南亚等区域的低资源语言普遍缺乏标准化的临床语料支撑,跨语言模型迁移的准确率难以保障,也制约了认知障碍早筛工具在中低收入国家的普惠落地。作为菲律宾顶尖高等教育机构,雅典耀大学在医学语言学、临床NLP领域拥有长期研究积累,其附属高级中学研究团队于2026年5月26日在预印本平台arXiv首发了DementiaBank-derived bilingual dataset,这也是全球首个专门面向痴呆症检测的菲律宾语-英语双语平行语料库。
据公开信息显示,该数据集全部语料源自国际权威临床语料库DementiaBank的公开数据,总计包含4000条标注完成的对话转录文本,涵盖DementiaBank中的英语原始转录内容,以及经专业翻译团队人工译制的菲律宾语版本。两类语言的语料中均包含1000份痴呆症阳性患者的对话样本、1000份健康人群的对照样本。为保障临床应用的有效性,研究团队在语料处理过程中特意完整保留了认知衰退人群特有的语篇标记,包括表述重复、表达犹豫、用词逻辑混乱等典型特征;同时全流程采用人工翻译而非机器翻译,避免机器翻译自动“优化”语言不流畅特征的归一化问题,彻底解决了跨语言评估中常见的域不对称性干扰问题,确保语料的临床参考价值不受翻译环节影响。
该数据集的落地应用场景覆盖临床、科研两大领域:在临床应用层面,可为菲律宾本地医疗系统开发适配双语使用环境的痴呆症AI早筛工具提供训练基准,适合菲律宾本地多语言混用的社会场景,未来可应用于基层医疗机构的快速初筛、居家认知功能自我监测等场景,降低认知障碍的筛查门槛;在科研层面,可作为跨语言医学NLP领域的标准化测试基准,用于验证不同语言之间认知诊断模型的迁移效果,研究语言结构、表达习惯对认知障碍识别准确率的影响,也可为其他东南亚低资源语言构建同类临床语料库提供可复用的流程范式。
从数据要素价值来看,专科临床标注数据集是医疗AI研发的核心基础设施,面向低资源语言的标准化临床语料更是全球稀缺的公共科研资源。本次数据集的发布,不仅填补了菲律宾本地痴呆症AI研发的语料空白,也为跨境跨语言的公共卫生科研协作提供了重要的基准支撑,对推动中低收入国家认知障碍早诊体系的数字化建设具有积极意义。
查看DementiaBank-derived bilingual dataset





_1769672084863.jpg)