首页 / 开源数据市场 / 正文

马克斯·普朗克信息学研究所发布BOL4Y; EI22数据集首次实现政治类视频虚假信息片段级定位

五号数据雷达开源数据市场2026-04-25 04:4416

德国马克斯·普朗克信息学研究所联合巴西事实核查机构AosFatos打造的BOL4Y; EI22系列视频虚假信息检测数据集于2026年4月23日首发于学术平台arXiv，该数据集填补了葡萄牙语政治场景不实内容识别的标注数据空白，为全球内容安全治理技术升级提供核心支撑。

随着全球社交平台短视频内容渗透率持续提升，视频形态的政治类虚假信息因传播速度快、感染力强、人工核查难度高，已成为全球数字内容治理领域的核心痛点，而垂直场景下的高质量标注数据集，是提升AI虚假信息识别精度的核心基础。近日，全球顶尖信息科学研究机构马克斯·普朗克信息学研究所的最新研究成果正式上线arXiv，为该领域的技术突破提供了关键数据底座。

马克斯·普朗克信息学研究所是德国马克斯·普朗克学会旗下专注信息科学前沿研究的核心机构，长期深耕人工智能、自然语言处理、数据治理等领域的标杆性研究，本次发布的BOL4Y; EI22数据集是其联合拉美地区知名独立事实核查机构AosFatos，针对葡萄牙语政治场景下的虚假信息治理需求打造的专项标注资源。

本次公开的BOL4Y; EI22系列包含两款针对性数据集：其中BOL4Y收录了538个巴西前总统博索纳罗任期内的公开争议视频，EI22则覆盖了77个2022年巴西大选期间流传的选举舞弊指控相关视频，两款数据集累计标注了2433个明确的虚假信息片段。为保障标注精度，研究团队首先通过OpenAI开源的Whisper语音识别模型完成所有视频的音频文本转录，随后采用针对葡萄牙语优化的BERTimbau预训练语言模型完成语义匹配与虚假片段标注，大幅提升了标注的一致性与准确率。

作为全球首个实现视频层级虚假信息片段定位的政治类专项数据集，BOL4Y; EI22为事实核查技术研发、社交媒体内容审核体系升级提供了重要的研究基础，其典型应用场景覆盖多个领域：在政治虚假信息检测场景，可用于训练针对葡萄牙语地区的AI识别模型，自动定位视频中的不实信息片段，大幅降低人工核查的时间成本；在内容安全预警场景，社交平台可基于该数据集优化审核算法，针对政治选举、公共政策讨论等高风险场景的视频内容实现前置预警，在不实内容大规模传播前完成拦截处置；此外该数据集还可为跨区域虚假信息传播规律研究、多语言虚假信息识别模型训练提供数据支撑。

当前全球数据要素市场正处于高速发展阶段，垂直领域的高质量标注数据集是AI技术落地的核心底座，本次BOL4Y; EI22数据集的发布，不仅填补了葡萄牙语政治类视频虚假信息检测领域的标注数据空白，也为其他语种、其他公共治理场景的专项数据集构建提供了可参考的技术范式，对推动全球数字内容治理体系的技术化升级具有重要意义。

查看BOL4Y; EI22

详情页内容：

社区讨论

近期热门

马克斯·普朗克信息学研究所发布BOL4Y; EI22数据集 首次实现政治类视频虚假信息片段级定位

详情页内容：

社区讨论

马克斯·普朗克信息学研究所发布BOL4Y; EI22数据集首次实现政治类视频虚假信息片段级定位