法国阿维尼翁大学 本次发布的数据集 π-YALLI, π-YALLI是一个为纳瓦特尔语构建的 corpus,由法国阿维尼翁大学计算机科学实验室和法国图卢兹大学弗朗索瓦·拉伯雷大学共同合作完成。该数据集包含大约1.912M个tokens,涵盖了历史文献、维基百科、诗歌、政治和法律文件、学术著作和科学出版物等多种类型的文本。数据集主要以中央纳瓦特尔语和La Huasteca纳瓦特尔语为主,还包括南部纳瓦特尔语和tecpillahtolli(一种学者用语)。该数据集旨在支持纳瓦特尔语的语言学研究,并为开发语言处理工具提供资源。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)