five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

斯里兰卡 发布 斯里兰卡文档数据集 数据集, 应用在 文档处理、自然语言处理 领域

五号数据雷达开源数据市场2025-10-08 08:0128
斯里兰卡文档数据集 是 斯里兰卡 发布的数据集,于 2025-10-05 首发在 arXiv 应用于 文档处理、自然语言处理 领域

斯里兰卡 本次发布的数据集 斯里兰卡文档数据集, 斯里兰卡文档数据集是一个大规模、多语言的资源,涵盖了议会记录、法律判决、政府出版物、新闻和旅游统计数据。该数据集目前包含215,670个文档,以僧伽罗语、泰米尔语和英语三种语言呈现。数据集每日更新,并在GitHub和Hugging Face上镜像。这些资源旨在支持计算语言学、法律分析、社会政治研究和多语言自然语言处理的研究。数据集的创建过程包括从官方斯里兰卡来源自动发现、摄取、解析、验证和版本化文档。该数据集已作为自然语言处理、计算法和政策研究的宝贵资源。

查看斯里兰卡文档数据集

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们