five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

马萨茨塞克大学发布LombardoGraphia数据集,应用在低资源语言处理、自然语言处理领域

五号数据雷达开源数据市场2026-04-01 05:0216
LombardoGraphia是马萨茨塞克大学发布的数据集,于2026-03-30首发在arXiv应用于低资源语言处理、自然语言处理领域

马萨茨塞克大学本次发布的数据集LombardoGraphia,LombardoGraphia是由马萨里克大学构建的首个多正字法伦巴第语标注语料库,包含来自维基百科的11,186条文本样本,涵盖9种正字法变体。该数据集经过严格清洗和标注,包含训练集、验证集和测试集划分,并附有正字法系统与地理分布的元数据。数据采集过程涉及对原始维基内容的过滤与标准化处理,旨在解决低资源语言伦巴第语因缺乏统一书写标准导致的NLP资源开发难题,为语言识别、正字法归一化等任务提供基础设施。

查看LombardoGraphia

README内容:

 

关于马萨茨塞克大学,马萨茨塞克大学(Masaryk University)是捷克共和国第二大大学,位于布尔诺市,成立于1919年。该校以捷克斯洛伐克第一任总统托马斯·马萨茨塞克的名字命名,是捷克顶尖的研究型大学之一,提供广泛的学术课程和研究领域。

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们