本次发布的数据集KS-PRET-5M,KS-PRET-5M是由Haq Nawaz Malik和Nahfid Nissar创建的克什米尔语预训练数据集,包含509万单词和1213万子词标记,是目前最大的公开克什米尔语数据集。数据集来源包括从InPage格式恢复的数字化档案和文学材料,以及Unicode原生的网络文本,涵盖文学、新闻、传记、诗歌、宗教文献和学术写作等多种体裁。通过十一阶段清洗流程处理,实现了99.65%的克什米尔语脚本纯度,显著降低了天城体污染。该数据集旨在支持克什米尔语的语言模型预训练、分词器训练和计算语言学研究,为这一低资源语言提供关键数据基础设施。
关于,国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)