five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

阿富汗科学院 发布 Southern Uzbek FLORES+dev 数据集, 应用在 自然语言处理、南方乌兹别克语 领域

五号数据雷达开源数据市场2025-08-22 11:4323
Southern Uzbek FLORES+dev 是 阿富汗科学院 发布的数据集,于 2025-08-20 首发在 arXiv 应用于 自然语言处理、南方乌兹别克语 领域

阿富汗科学院 本次发布的数据集 Southern Uzbek FLORES+dev, 南方乌兹别克语数据集是由阿富汗科学院的研究人员创建的,旨在解决南方乌兹别克语在自然语言处理领域中的代表性不足问题。该数据集包括997个从英语翻译成南方乌兹别克语的句子,以及来自词典、文学和网页资源的39,994个平行句子。数据集还包括一个经过微调的NLLB-200模型,用于南方乌兹别克语的翻译。此外,还提出了一种后处理方法,用于恢复阿拉伯文字符的半空格字符,从而提高了对形态学边界的处理能力。所有数据集、模型和工具都已公开发布,以支持对南方乌兹别克语和其他低资源语言的未来研究工作。

查看Southern Uzbek FLORES+dev

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们