美国密歇根大学 本次发布的数据集 Famous Figures Dataset, Famous Figures数据集由美国密歇根大学电气与计算机工程系创建,旨在为政治人物提供高质量的语音合成数据,用于研究和开发音频反欺骗检测系统。数据集包含10位知名政治人物的26,500条真实语音样本和265,000条合成语音样本,平均时长约为8秒。数据集的创建过程涉及从YouTube视频收集高质量音频,使用Assembly AI进行说话人分割,OpenAI Whisper Large Turbo进行转录,并基于转录进行音频分割。合成语音生成采用了多种文本到语音(TTS)系统,包括单说话人模型、少量样本微调和零样本合成。该数据集可用于解决音频欺骗检测问题,保护公众人物免受语音伪造攻击。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)