上海声学实验室 本次发布的数据集 SHAL, SHAL数据集是由上海声学实验室创建,专注于中文数字字符串的长文本依赖语音验证。该数据集包含约72.3小时的音频,共46,583个文件,格式为44.1kHz、16位PCM-WAV。数据集主要关注10至40岁的说话者,性别平衡。创建过程中,使用了Tacotron2和HiFi-GAN进行数据增强,通过转移学习和个性化TTS模型,将数据集扩展至原大小的六倍。SHAL数据集适用于金融支付等领域的身份验证,旨在解决文本依赖语音验证中的数据稀缺和领域不匹配问题。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)