five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

发布KS-PRET-5M数据集,应用在自然语言处理、克什米尔语领域

五号数据雷达开源数据市场2026-04-17 09:243
KS-PRET-5M是发布的数据集,于2026-04-13首发在arXiv应用于自然语言处理、克什米尔语领域

本次发布的数据集KS-PRET-5M,KS-PRET-5M是由Haq Nawaz Malik和Nahfid Nissar创建的克什米尔语预训练数据集,包含509万单词和1213万子词标记,是目前最大的公开克什米尔语数据集。数据集来源包括从InPage格式恢复的数字化档案和文学材料,以及Unicode原生的网络文本,涵盖文学、新闻、传记、诗歌、宗教文献和学术写作等多种体裁。通过十一阶段清洗流程处理,实现了99.65%的克什米尔语脚本纯度,显著降低了天城体污染。该数据集旨在支持克什米尔语的语言模型预训练、分词器训练和计算语言学研究,为这一低资源语言提供关键数据基础设施。

查看KS-PRET-5M

关于,国庆学校是一所位于中国的教育机构,专注于提供基础教育服务。学校致力于培养学生的综合素质,注重学术与品德的全面发展。

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们