印度理工学院 本次发布的数据集 Vedavani, Vedavani是一个用于梵文吠陀诗歌自动语音识别(ASR)的基准语料库。该数据集由来自《梨俱吠陀》和《阿闼婆吠陀》的30,779个标记音频样本组成,总时长为54小时。这个数据集捕捉了梵文独特的音调和节奏特征,为研究和开发梵文诗歌的ASR系统提供了宝贵资源。数据集的创建涉及从维基百科获取文本资源,从互联网档案馆获取音频转录,并手动对齐文本和音频数据。Vedavani数据集旨在解决梵文诗歌的自动语音识别问题,为研究梵文语言提供了新的视角和方法。
README 内容:
关于 印度理工学院 , 印度理工学院是印度的一个著名高等教育机构,以其高水平的教育质量和科研能力闻名于世。加尔各答分校是其分校之一,提供多种工程、科学和技术领域的教育与研究项目。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)