泰国国家电子和计算机技术中心(NECTEC) 本次发布的数据集 LOTUSDIS, LOTUSDIS是一个公开可用的泰语会议语料库,旨在推进远场对话式语音识别。该数据集包含114小时的自由、未经编排的对话,采集于15-20分钟的会议中,参与者为三人,其中频繁出现重叠语音。语音同时由九个独立的单通道设备录制,跨越六种麦克风类型,距离从0.12m到10m不等,保留了回声、噪声和设备染色等真实效果,无需依赖麦克风阵列。我们提供标准的训练/开发/测试分割,并发布了一个可复制的基线系统。我们在零样本和微调条件下对几个Whisper变体进行了基准测试。现成的模型在距离较远时表现出了明显的退化,证实了预训练数据和泰语远场语音之间的不匹配。在LOTUSDIS上进行微调后,鲁棒性得到了显著提高:一个泰语Whisper基线将整体WER从64.3%降低到38.3%,远场WER从81.6%降低到49.5%,尤其是在最远的麦克风上取得了特别大的提升。这些结果突出了距离多样化的训练数据对于鲁棒ASR的重要性。该语料库在CC-BY-SA 4.0许可下可用。我们还发布了一个训练和评估脚本作为基线系统,以促进该领域可复现的研究。
README 内容:
关于 泰国国家电子和计算机技术中心(NECTEC) , -
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)