佛罗里达大学 本次发布的数据集 English-Kpelle-Corpus, 该数据集是第一个公开可用的英语-克佩勒语机器翻译数据集,包含超过2000个句子对,来自日常交流、宗教文本和教育材料。通过在数据集的两个版本上微调Meta的“不让任何语言掉队”(NLLB)模型,我们在克佩勒语到英语的方向上实现了高达30的BLEU分数,展示了数据增强的好处。我们的发现与其他非洲语言的NLLB-200基准一致,强调了克佩勒语尽管资源匮乏,但具有竞争性性能的潜力。除了机器翻译之外,这个数据集还支持更广泛的NLP任务,包括语音识别和语言建模。
Dataset card 内容:
Files and versions 内容:
关于 佛罗里达大学 , 佛罗里达大学是一所位于美国佛罗里达州盖恩斯维尔的公立研究型大学,是美国大学协会的成员之一,也是佛罗里达州大学系统中的旗舰大学。该校成立于1853年,提供超过100个本科和200个研究生学位课程。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)