当前全球数字空间虚假信息治理已成为各国公共治理的核心议题之一,而针对使用人口基数大、但AI研究资源匮乏的低资源语言,标注数据集的稀缺始终是制约假新闻检测技术落地的核心瓶颈。孟加拉语作为全球使用人口超2.7亿的第七大语言,长期以来缺乏高质量、大规模的假新闻检测标注数据集,相关技术研发进展缓慢,本次BanFakeNews数据集的发布正是针对性填补这一领域空白的重要成果。
据介绍,BanFakeNews由伊斯兰技术大学研究团队自主构建,总计包含约50000条标注完成的孟加拉语新闻文章,其中真实内容样本来自22个权威可信的孟加拉语新闻门户,为解决假新闻检测领域普遍存在的正负样本不平衡问题,研究团队特别通过指令调优后的Gemma-3-27B-IT大模型生成了4545条合成假新闻样本,后续还通过语义过滤、受控子采样等技术对全量数据进行了标准化清洗,确保数据集的标签一致性、样本多样性,避免数据偏差对模型训练造成干扰。
从落地价值来看,BanFakeNews的应用场景覆盖多个领域:首先可直接用于孟加拉语假新闻分类模型的训练与调优,支撑社交平台、内容分发平台的孟加拉语内容治理,在重大公共事件、选举周期等关键节点实现虚假信息的快速甄别拦截;其次也可作为低资源语言NLP研究的基础数据集,为南亚地区其他同语系低资源语言的假新闻检测、文本分类等任务提供迁移学习的基础支撑,降低相关研究的数据获取门槛。
在全球多语言AI均衡发展的趋势下,低资源语言的基础数据资源建设已成为数据要素领域的重要布局方向,本次BanFakeNews数据集的发布,不仅为孟加拉语数字生态的虚假信息治理提供了核心基础工具,也为全球低资源语言AI数据集的构建提供了“真实样本采集+大模型合成补充+标准化清洗”的可复制范式,对推动多语言AI技术的普惠落地具有重要参考价值。





_1769672084863.jpg)