首页 / 开源数据市场 / 正文

Beijing Academy of Artificial Intelligence (BAAI) 发布 Kuwain Training Dataset 数据集, 应用在自然语言处理、阿拉伯语方言领域

五号数据雷达开源数据市场2025-10-03 11:0623

Kuwain Training Dataset 是 Beijing Academy of Artificial Intelligence (BAAI) 发布的数据集,于 2025-10-03 首发在 arXiv 应用于自然语言处理、阿拉伯语方言领域

Beijing Academy of Artificial Intelligence (BAAI) 本次发布的数据集 Kuwain Training Dataset, 该数据集包含了1100亿个标记，其中900亿为阿拉伯语，200亿为英语，这些数据来源于公开可用的开源资源，包括多种阿拉伯语语料库和方言数据。该数据集涵盖了广泛的阿拉伯语方言数据，并经过大量筛选和清洗以提高数据质量。为了确保可复现性，还发布了专门用于阿拉伯语文本清洗的脚本。在规模上，该数据集达到了1100亿个标记，任务旨在进行阿拉伯语语言整合的语言模型训练和评估。

查看Kuwain Training Dataset

README 内容：

关于 Beijing Academy of Artificial Intelligence (BAAI) , 北京人工智能科学院（Beijing Academy of Artificial Intelligence，简称BAAI）是一个专注于人工智能研究的科研机构，致力于推动人工智能的发展和应用。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

Beijing Academy of Artificial Intelligence (BAAI) 发布 Kuwain Training Dataset 数据集, 应用在 自然语言处理、阿拉伯语方言 领域

README 内容：

社区讨论

Beijing Academy of Artificial Intelligence (BAAI) 发布 Kuwain Training Dataset 数据集, 应用在自然语言处理、阿拉伯语方言领域