电子科技大学 本次发布的数据集 FMSD-TTS, FMSD-TTS数据集是由电子科技大学信息与软件工程学院、西藏大学信息科学技术学院和德克萨斯大学西南医学中心眼科学系合作生成的,旨在解决藏语资源匮乏的问题。该数据集包含超过210小时的录音,涵盖了藏语三大主要方言——卫藏、安多和康巴,共计1,500多位母语者的音频样本,数据集大小为120,000条。数据集的生成过程中采用了FMSD-TTS模型,该模型能够从有限的参考音频和显式方言标签中合成平行方言语音。数据集的创建过程采用了先进的技术手段,包括讲者-方言融合模块和方言专用动态路由网络(DSDR-Net),能够捕捉不同方言之间的细微声学和语言变化,同时保持讲者身份。FMSD-TTS数据集的发布为藏语语音处理领域提供了宝贵的新资源,有助于推动自动语音识别(ASR)、语音翻译(ST)和语音-语音方言转换(S2SDC)等领域的研究。
关于 电子科技大学 , 电子科技大学是位于中国四川省成都市的一所综合性全国重点大学,是中国电子类院校的领军高校之一,以电子信息类专业著称。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)