five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

法国阿维尼翁大学 发布 π-YALLI 数据集, 应用在 纳瓦特尔语研究、自然语言处理 领域

五号数据雷达开源数据市场2025-03-22 06:5321
π-YALLI 是 法国阿维尼翁大学 发布的数据集,于 2024-12-20 首发在 arXiv 应用于 纳瓦特尔语研究、自然语言处理 领域

法国阿维尼翁大学 本次发布的数据集 π-YALLI, π-YALLI是一个为纳瓦特尔语构建的 corpus,由法国阿维尼翁大学计算机科学实验室和法国图卢兹大学弗朗索瓦·拉伯雷大学共同合作完成。该数据集包含大约1.912M个tokens,涵盖了历史文献、维基百科、诗歌、政治和法律文件、学术著作和科学出版物等多种类型的文本。数据集主要以中央纳瓦特尔语和La Huasteca纳瓦特尔语为主,还包括南部纳瓦特尔语和tecpillahtolli(一种学者用语)。该数据集旨在支持纳瓦特尔语的语言学研究,并为开发语言处理工具提供资源。

查看π-YALLI

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们