five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

伊斯兰技术大学发布BanFakeNews孟加拉语假新闻数据集 填补低资源语言NLP研究数据缺口

五号数据雷达开源数据市场2026-05-09 05:0211
2026年5月2日,伊斯兰技术大学研究团队在arXiv平台首发孟加拉语假新闻检测专用数据集BanFakeNews,该数据集包含5万条标注样本及数千条大模型生成的合成假新闻,可有效解决低资源语言假新闻检测领域的数据稀缺问题,为相关自然语言处理技术研发提供核心支撑。

当前全球数字空间虚假信息治理已成为各国公共治理的核心议题之一,而针对使用人口基数大、但AI研究资源匮乏的低资源语言,标注数据集的稀缺始终是制约假新闻检测技术落地的核心瓶颈。孟加拉语作为全球使用人口超2.7亿的第七大语言,长期以来缺乏高质量、大规模的假新闻检测标注数据集,相关技术研发进展缓慢,本次BanFakeNews数据集的发布正是针对性填补这一领域空白的重要成果。

据介绍,BanFakeNews由伊斯兰技术大学研究团队自主构建,总计包含约50000条标注完成的孟加拉语新闻文章,其中真实内容样本来自22个权威可信的孟加拉语新闻门户,为解决假新闻检测领域普遍存在的正负样本不平衡问题,研究团队特别通过指令调优后的Gemma-3-27B-IT大模型生成了4545条合成假新闻样本,后续还通过语义过滤、受控子采样等技术对全量数据进行了标准化清洗,确保数据集的标签一致性、样本多样性,避免数据偏差对模型训练造成干扰。

从落地价值来看,BanFakeNews的应用场景覆盖多个领域:首先可直接用于孟加拉语假新闻分类模型的训练与调优,支撑社交平台、内容分发平台的孟加拉语内容治理,在重大公共事件、选举周期等关键节点实现虚假信息的快速甄别拦截;其次也可作为低资源语言NLP研究的基础数据集,为南亚地区其他同语系低资源语言的假新闻检测、文本分类等任务提供迁移学习的基础支撑,降低相关研究的数据获取门槛。

在全球多语言AI均衡发展的趋势下,低资源语言的基础数据资源建设已成为数据要素领域的重要布局方向,本次BanFakeNews数据集的发布,不仅为孟加拉语数字生态的虚假信息治理提供了核心基础工具,也为全球低资源语言AI数据集的构建提供了“真实样本采集+大模型合成补充+标准化清洗”的可复制范式,对推动多语言AI技术的普惠落地具有重要参考价值。

查看BanFakeNews

详情页内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们