当前全球自然语言处理(NLP)技术高速迭代,但资源投入长期集中于中英等高资源语言赛道,作为全球使用人数超2.3亿的世界第七大语言,孟加拉语长期面临公开标准化训练数据集稀缺的痛点,严重制约了当地AI文本生成、智能交互等数字化应用的落地进程。近日,孟加拉国顶尖工科院校阿赫桑乌拉科技大学联合美国加州大学河滨分校正式发布Bangla Key2Text数据集,相关成果于2026年4月21日首发于学术预印本平台arXiv,是目前孟加拉语领域规模最大的关键词到文本生成任务专用基准数据集。
据公开信息显示,Bangla Key2Text共包含260万条关键词-文本配对数据,单文本平均匹配9.38个关键词,配对生成的参考文本平均长度为15.14词。所有数据均取自公开合规的孟加拉语新闻语料库,研究团队通过BERT预训练模型搭建的标准化关键词提取管道处理原始文章,确保配对数据的语义关联度、标注准确率均达到NLP训练的工业级要求,核心目标为解决低资源语言环境下基于关键词的文本生成技术落地难题,为孟加拉语自然语言生成相关研究与产业应用提供统一的基准测试资源。
作为稀缺的低资源语言标准化数据集,Bangla Key2Text未来可支撑多类孟加拉语NLP应用的开发与测试:典型场景包括新闻资讯领域的关键词自动摘要生成、电商平台的商品描述批量生产、政务服务场景的智能问答回复生成、面向视障群体的信息无障碍内容转译等,同时也可作为低资源语言NLP模型泛化能力测试、跨语言迁移训练的对照基准,帮助研究人员大幅降低模型训练的数据集准备成本。
从全球AI产业发展与数据要素市场建设的角度来看,多语言训练数据集是支撑AI技术全球化普惠落地的核心基础资源,低资源语言的公开标准化数据集更是全球产学研领域的共性稀缺资源。本次Bangla Key2Text的发布,不仅填补了孟加拉语关键词到文本生成领域的基准资源空白,也为其他南亚低资源语言的数据集构建提供了可复制的技术路径,对推动区域数字普惠、降低当地AI应用的开发门槛具有重要的行业示范意义。





_1769672084863.jpg)