首页 / 开源数据市场 / 正文

阿富汗科学院发布 Southern Uzbek FLORES+dev 数据集, 应用在自然语言处理、南方乌兹别克语领域

五号数据雷达开源数据市场2025-08-22 11:4323

Southern Uzbek FLORES+dev 是阿富汗科学院发布的数据集,于 2025-08-20 首发在 arXiv 应用于自然语言处理、南方乌兹别克语领域

阿富汗科学院本次发布的数据集 Southern Uzbek FLORES+dev, 南方乌兹别克语数据集是由阿富汗科学院的研究人员创建的，旨在解决南方乌兹别克语在自然语言处理领域中的代表性不足问题。该数据集包括997个从英语翻译成南方乌兹别克语的句子，以及来自词典、文学和网页资源的39,994个平行句子。数据集还包括一个经过微调的NLLB-200模型，用于南方乌兹别克语的翻译。此外，还提出了一种后处理方法，用于恢复阿拉伯文字符的半空格字符，从而提高了对形态学边界的处理能力。所有数据集、模型和工具都已公开发布，以支持对南方乌兹别克语和其他低资源语言的未来研究工作。

查看Southern Uzbek FLORES+dev

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

阿富汗科学院 发布 Southern Uzbek FLORES+dev 数据集, 应用在 自然语言处理、南方乌兹别克语 领域

社区讨论

阿富汗科学院发布 Southern Uzbek FLORES+dev 数据集, 应用在自然语言处理、南方乌兹别克语领域