阿富汗科学院 本次发布的数据集 Southern Uzbek FLORES+dev, 南方乌兹别克语数据集是由阿富汗科学院的研究人员创建的,旨在解决南方乌兹别克语在自然语言处理领域中的代表性不足问题。该数据集包括997个从英语翻译成南方乌兹别克语的句子,以及来自词典、文学和网页资源的39,994个平行句子。数据集还包括一个经过微调的NLLB-200模型,用于南方乌兹别克语的翻译。此外,还提出了一种后处理方法,用于恢复阿拉伯文字符的半空格字符,从而提高了对形态学边界的处理能力。所有数据集、模型和工具都已公开发布,以支持对南方乌兹别克语和其他低资源语言的未来研究工作。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)