five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

泰国国家电子和计算机技术中心(NECTEC) 发布 LOTUSDIS 数据集, 应用在 语音识别、远场对话 领域

五号数据雷达开源数据市场2025-09-25 09:0643
LOTUSDIS 是 泰国国家电子和计算机技术中心(NECTEC) 发布的数据集,于 2025-09-23 首发在 arXiv 应用于 语音识别、远场对话 领域

泰国国家电子和计算机技术中心(NECTEC) 本次发布的数据集 LOTUSDIS, LOTUSDIS是一个公开可用的泰语会议语料库,旨在推进远场对话式语音识别。该数据集包含114小时的自由、未经编排的对话,采集于15-20分钟的会议中,参与者为三人,其中频繁出现重叠语音。语音同时由九个独立的单通道设备录制,跨越六种麦克风类型,距离从0.12m到10m不等,保留了回声、噪声和设备染色等真实效果,无需依赖麦克风阵列。我们提供标准的训练/开发/测试分割,并发布了一个可复制的基线系统。我们在零样本和微调条件下对几个Whisper变体进行了基准测试。现成的模型在距离较远时表现出了明显的退化,证实了预训练数据和泰语远场语音之间的不匹配。在LOTUSDIS上进行微调后,鲁棒性得到了显著提高:一个泰语Whisper基线将整体WER从64.3%降低到38.3%,远场WER从81.6%降低到49.5%,尤其是在最远的麦克风上取得了特别大的提升。这些结果突出了距离多样化的训练数据对于鲁棒ASR的重要性。该语料库在CC-BY-SA 4.0许可下可用。我们还发布了一个训练和评估脚本作为基线系统,以促进该领域可复现的研究。

查看LOTUSDIS

README 内容: 

 

关于 泰国国家电子和计算机技术中心(NECTEC) , -

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们