斯里兰卡 本次发布的数据集 斯里兰卡文档数据集, 斯里兰卡文档数据集是一个大规模、多语言的资源,涵盖了议会记录、法律判决、政府出版物、新闻和旅游统计数据。该数据集目前包含215,670个文档,以僧伽罗语、泰米尔语和英语三种语言呈现。数据集每日更新,并在GitHub和Hugging Face上镜像。这些资源旨在支持计算语言学、法律分析、社会政治研究和多语言自然语言处理的研究。数据集的创建过程包括从官方斯里兰卡来源自动发现、摄取、解析、验证和版本化文档。该数据集已作为自然语言处理、计算法和政策研究的宝贵资源。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)