five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

莫拉图瓦大学发布SiDiaC-v.2.0数据集,应用在历时语言演变、自然语言处理领域

五号数据雷达开源数据市场2026-03-13 04:5720
SiDiaC-v.2.0是莫拉图瓦大学发布的数据集,于2026-03-11首发在arXiv应用于历时语言演变、自然语言处理领域

莫拉图瓦大学本次发布的数据集SiDiaC-v.2.0,SiDiaC-v.2.0是当前最大的僧伽罗语历时语料库,由斯里兰卡莫拉图瓦大学和信息技术研究院联合构建,覆盖公元5世纪至20世纪的文献。该语料库包含18.5万部文学作品共计24.1万词项,数据源自斯里兰卡国家图书馆的扫描文献,经谷歌Document AI OCR数字化后,通过多阶段处理流程解决格式错误、混合编码等问题。语料库采用双层分类体系,按虚构/非虚构进行主分类,并细分为宗教、历史等次级类别,为低资源语言僧伽罗语的历时语言演变研究及NLP任务提供重要资源。

查看SiDiaC-v.2.0

README内容:

 

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们