five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

佛罗里达大学 发布 English-Kpelle-Corpus 数据集, 应用在 机器翻译、自然语言处理 领域

五号数据雷达开源数据市场2025-05-28 06:3323
English-Kpelle-Corpus 是 佛罗里达大学 发布的数据集,于 2025-05-25 首发在 arXiv 应用于 机器翻译、自然语言处理 领域

佛罗里达大学 本次发布的数据集 English-Kpelle-Corpus, 该数据集是第一个公开可用的英语-克佩勒语机器翻译数据集,包含超过2000个句子对,来自日常交流、宗教文本和教育材料。通过在数据集的两个版本上微调Meta的“不让任何语言掉队”(NLLB)模型,我们在克佩勒语到英语的方向上实现了高达30的BLEU分数,展示了数据增强的好处。我们的发现与其他非洲语言的NLLB-200基准一致,强调了克佩勒语尽管资源匮乏,但具有竞争性性能的潜力。除了机器翻译之外,这个数据集还支持更广泛的NLP任务,包括语音识别和语言建模。

查看English-Kpelle-Corpus

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 佛罗里达大学 , 佛罗里达大学是一所位于美国佛罗里达州盖恩斯维尔的公立研究型大学,是美国大学协会的成员之一,也是佛罗里达州大学系统中的旗舰大学。该校成立于1853年,提供超过100个本科和200个研究生学位课程。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们