five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

马克斯·普朗克信息学研究所发布BOL4Y; EI22数据集 首次实现政治类视频虚假信息片段级定位

五号数据雷达开源数据市场2026-04-25 04:4416
德国马克斯·普朗克信息学研究所联合巴西事实核查机构AosFatos打造的BOL4Y; EI22系列视频虚假信息检测数据集于2026年4月23日首发于学术平台arXiv,该数据集填补了葡萄牙语政治场景不实内容识别的标注数据空白,为全球内容安全治理技术升级提供核心支撑。

随着全球社交平台短视频内容渗透率持续提升,视频形态的政治类虚假信息因传播速度快、感染力强、人工核查难度高,已成为全球数字内容治理领域的核心痛点,而垂直场景下的高质量标注数据集,是提升AI虚假信息识别精度的核心基础。近日,全球顶尖信息科学研究机构马克斯·普朗克信息学研究所的最新研究成果正式上线arXiv,为该领域的技术突破提供了关键数据底座。

马克斯·普朗克信息学研究所是德国马克斯·普朗克学会旗下专注信息科学前沿研究的核心机构,长期深耕人工智能、自然语言处理、数据治理等领域的标杆性研究,本次发布的BOL4Y; EI22数据集是其联合拉美地区知名独立事实核查机构AosFatos,针对葡萄牙语政治场景下的虚假信息治理需求打造的专项标注资源。

本次公开的BOL4Y; EI22系列包含两款针对性数据集:其中BOL4Y收录了538个巴西前总统博索纳罗任期内的公开争议视频,EI22则覆盖了77个2022年巴西大选期间流传的选举舞弊指控相关视频,两款数据集累计标注了2433个明确的虚假信息片段。为保障标注精度,研究团队首先通过OpenAI开源的Whisper语音识别模型完成所有视频的音频文本转录,随后采用针对葡萄牙语优化的BERTimbau预训练语言模型完成语义匹配与虚假片段标注,大幅提升了标注的一致性与准确率。

作为全球首个实现视频层级虚假信息片段定位的政治类专项数据集,BOL4Y; EI22为事实核查技术研发、社交媒体内容审核体系升级提供了重要的研究基础,其典型应用场景覆盖多个领域:在政治虚假信息检测场景,可用于训练针对葡萄牙语地区的AI识别模型,自动定位视频中的不实信息片段,大幅降低人工核查的时间成本;在内容安全预警场景,社交平台可基于该数据集优化审核算法,针对政治选举、公共政策讨论等高风险场景的视频内容实现前置预警,在不实内容大规模传播前完成拦截处置;此外该数据集还可为跨区域虚假信息传播规律研究、多语言虚假信息识别模型训练提供数据支撑。

当前全球数据要素市场正处于高速发展阶段,垂直领域的高质量标注数据集是AI技术落地的核心底座,本次BOL4Y; EI22数据集的发布,不仅填补了葡萄牙语政治类视频虚假信息检测领域的标注数据空白,也为其他语种、其他公共治理场景的专项数据集构建提供了可参考的技术范式,对推动全球数字内容治理体系的技术化升级具有重要意义。

查看BOL4Y; EI22

详情页内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们