Sharif University of Technology 本次发布的数据集 Persian Dialect IDentification (PDID), PDID数据集是一个多口音语料库,涵盖了10个地区波斯口音,为波斯语音识别中的口音变化提供了第一个系统性的基准,填补了多语言语音研究中的一个关键空白,并为未来低资源、语言多样性语言的研究提供了基础。数据集包含来自200多个小时的原始语音中约23小时的干净口音标注数据,样本被标准化为16kHz、单声道、16位WAV格式,并以3-30秒的片段进行分割。数据集的创建过程包括语音活动检测、说话人分割、基于静默的分割和语音-音乐分离等预处理步骤。该数据集旨在解决语音识别系统对音调和方言变化的敏感性,并通过抑制口音相关特征并鼓励语音识别模型学习口音中性表示来提高模型的鲁棒性。
查看Persian Dialect IDentification (PDID)
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)