首页 / 开源数据市场 / 正文

发布KS-PRET-5M数据集,应用在自然语言处理、克什米尔语领域

五号数据雷达开源数据市场2026-04-17 09:243

KS-PRET-5M是发布的数据集,于2026-04-13首发在arXiv应用于自然语言处理、克什米尔语领域

本次发布的数据集KS-PRET-5M,KS-PRET-5M是由Haq Nawaz Malik和Nahfid Nissar创建的克什米尔语预训练数据集，包含509万单词和1213万子词标记，是目前最大的公开克什米尔语数据集。数据集来源包括从InPage格式恢复的数字化档案和文学材料，以及Unicode原生的网络文本，涵盖文学、新闻、传记、诗歌、宗教文献和学术写作等多种体裁。通过十一阶段清洗流程处理，实现了99.65%的克什米尔语脚本纯度，显著降低了天城体污染。该数据集旨在支持克什米尔语的语言模型预训练、分词器训练和计算语言学研究，为这一低资源语言提供关键数据基础设施。

查看KS-PRET-5M

关于,国庆学校是一所位于中国的教育机构，专注于提供基础教育服务。学校致力于培养学生的综合素质，注重学术与品德的全面发展。

关于arXiv,全球最大的预印本学术论文数据库，涵盖物理、数学、计算机科学等多个学科领域。

社区讨论

近期热门