随着AIGC技术的快速迭代,语音克隆、语义篡改等技术门槛持续下降,仅修改音频局部关键信息的伪造手段已成为电信诈骗、虚假信息传播、司法证据伪造等场景的新型风险点。而此前全球音频取证领域的公开数据集大多聚焦全段语音伪造、单语言场景,针对占比极低的多区域局部篡改的检测数据供给严重不足,成为制约相关技术研发落地的核心瓶颈。
越南邮政电信技术研究院本次发布的大规模多语言语音修复检测数据集MIST (Multi-region Inpainting Speech Tampering),正是针对上述行业痛点推出的核心数据资产。该数据集覆盖英语、越南语等在内的6种语言,共包含59.8万条语音样本,采用LLM引导的语义替换和神经语音克隆技术生成,每条语音包含1-3个独立修复的单词片段,伪造内容仅占单条语音时长的2%-7%,高度贴合真实场景下局部语音篡改的特征;所有样本均源自Multilingual LibriSpeech和LEMAS-Dataset公开语料库,通过严格的跨语言语音克隆与边界优化流程生成,最大程度还原了真实篡改场景下的音频边界过渡特征,可有效支撑高鲁棒性的篡改检测模型训练。
从应用价值来看,MIST数据集主要面向音频取证领域,重点解决多区域局部语音篡改的检测与定位难题,其典型应用场景覆盖多个数字安全领域:在电信反欺诈场景中,可助力训练识别仅修改卡号、转账信息等局部关键词的AI伪造语音,降低跨境语音诈骗的识别难度;在司法取证场景中,可支撑对录音证据的精细化篡改校验,识别仅修改关键证词片段的伪造内容;在跨境内容平台审核场景中,多语言特性可支持不同语种地区的语音内容安全校验,防范局部篡改的虚假语音内容传播。
作为数据要素市场中AI安全赛道的核心细分资产,语音取证类数据集的供给是完善数字空间信任体系的重要基础。本次MIST数据集的发布,填补了多语言低占比局部语音篡改检测领域的公开数据空白,将有力推动全球音频取证技术的研发迭代,为跨区域语音安全治理提供重要的数据支撑。





_1769672084863.jpg)