莫拉图瓦大学本次发布的数据集SiDiaC-v.2.0,SiDiaC-v.2.0是当前最大的僧伽罗语历时语料库,由斯里兰卡莫拉图瓦大学和信息技术研究院联合构建,覆盖公元5世纪至20世纪的文献。该语料库包含18.5万部文学作品共计24.1万词项,数据源自斯里兰卡国家图书馆的扫描文献,经谷歌Document AI OCR数字化后,通过多阶段处理流程解决格式错误、混合编码等问题。语料库采用双层分类体系,按虚构/非虚构进行主分类,并细分为宗教、历史等次级类别,为低资源语言僧伽罗语的历时语言演变研究及NLP任务提供重要资源。
README内容:
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)