马萨茨塞克大学本次发布的数据集LombardoGraphia,LombardoGraphia是由马萨里克大学构建的首个多正字法伦巴第语标注语料库,包含来自维基百科的11,186条文本样本,涵盖9种正字法变体。该数据集经过严格清洗和标注,包含训练集、验证集和测试集划分,并附有正字法系统与地理分布的元数据。数据采集过程涉及对原始维基内容的过滤与标准化处理,旨在解决低资源语言伦巴第语因缺乏统一书写标准导致的NLP资源开发难题,为语言识别、正字法归一化等任务提供基础设施。
README内容:
关于马萨茨塞克大学,马萨茨塞克大学(Masaryk University)是捷克共和国第二大大学,位于布尔诺市,成立于1919年。该校以捷克斯洛伐克第一任总统托马斯·马萨茨塞克的名字命名,是捷克顶尖的研究型大学之一,提供广泛的学术课程和研究领域。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)