five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

菲律宾雅典耀大学发布全球首个菲英双语痴呆症检测平行语料库 助力低资源场景医学AI研发

五号数据雷达开源数据市场2026-05-27 05:324
菲律宾雅典耀大学附属高级中学研究团队于2026年5月26日在预印本平台arXiv首发全球首个面向痴呆症检测的菲律宾语-英语双语平行数据集DementiaBank-derived bilingual dataset,该数据集解决了跨语言痴呆症AI检测的域不对称评估难题,为低资源语言场景的临床自然语言处理、认知障碍早筛研究提供了标准化基准支撑。

随着全球人口老龄化程度持续加深,痴呆症等认知障碍疾病的早筛早诊已成为公共卫生领域的核心课题之一。目前基于语言特征的AI辅助筛查是临床领域的重要研发方向,但长期以来,相关标注语料库大多以英语等高资源语言为主,东南亚等区域的低资源语言普遍缺乏标准化的临床语料支撑,跨语言模型迁移的准确率难以保障,也制约了认知障碍早筛工具在中低收入国家的普惠落地。作为菲律宾顶尖高等教育机构,雅典耀大学在医学语言学、临床NLP领域拥有长期研究积累,其附属高级中学研究团队于2026年5月26日在预印本平台arXiv首发了DementiaBank-derived bilingual dataset,这也是全球首个专门面向痴呆症检测的菲律宾语-英语双语平行语料库。

据公开信息显示,该数据集全部语料源自国际权威临床语料库DementiaBank的公开数据,总计包含4000条标注完成的对话转录文本,涵盖DementiaBank中的英语原始转录内容,以及经专业翻译团队人工译制的菲律宾语版本。两类语言的语料中均包含1000份痴呆症阳性患者的对话样本、1000份健康人群的对照样本。为保障临床应用的有效性,研究团队在语料处理过程中特意完整保留了认知衰退人群特有的语篇标记,包括表述重复、表达犹豫、用词逻辑混乱等典型特征;同时全流程采用人工翻译而非机器翻译,避免机器翻译自动“优化”语言不流畅特征的归一化问题,彻底解决了跨语言评估中常见的域不对称性干扰问题,确保语料的临床参考价值不受翻译环节影响。

该数据集的落地应用场景覆盖临床、科研两大领域:在临床应用层面,可为菲律宾本地医疗系统开发适配双语使用环境的痴呆症AI早筛工具提供训练基准,适合菲律宾本地多语言混用的社会场景,未来可应用于基层医疗机构的快速初筛、居家认知功能自我监测等场景,降低认知障碍的筛查门槛;在科研层面,可作为跨语言医学NLP领域的标准化测试基准,用于验证不同语言之间认知诊断模型的迁移效果,研究语言结构、表达习惯对认知障碍识别准确率的影响,也可为其他东南亚低资源语言构建同类临床语料库提供可复用的流程范式。

从数据要素价值来看,专科临床标注数据集是医疗AI研发的核心基础设施,面向低资源语言的标准化临床语料更是全球稀缺的公共科研资源。本次数据集的发布,不仅填补了菲律宾本地痴呆症AI研发的语料空白,也为跨境跨语言的公共卫生科研协作提供了重要的基准支撑,对推动中低收入国家认知障碍早诊体系的数字化建设具有积极意义。

查看DementiaBank-derived bilingual dataset

详情页内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们