首页 / 开源数据市场 / 正文

斯里兰卡莫拉图瓦大学发布 Tamil synthetic OCR benchmarking dataset 数据集, 应用在光学字符识别、低资源语言处理领域

五号数据雷达开源数据市场2025-07-26 14:0420

Tamil synthetic OCR benchmarking dataset 是斯里兰卡莫拉图瓦大学发布的数据集,于 2025-07-24 首发在 arXiv 应用于光学字符识别、低资源语言处理领域

斯里兰卡莫拉图瓦大学本次发布的数据集 Tamil synthetic OCR benchmarking dataset, 本研究介绍了一个新型的合成泰米尔OCR基准数据集，该数据集由2437959条记录组成，通过将泰米尔文本从OPUS数据库中的OpenSubtitles v2024版本中提取，并使用六种不同的字体将文本转换为图像。数据集旨在为低资源语言的OCR提供评估和比较的基础，以解决泰米尔等低资源语言在OCR中的挑战。

查看Tamil synthetic OCR benchmarking dataset

Dataset card 内容：

Files and versions 内容：

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

斯里兰卡莫拉图瓦大学 发布 Tamil synthetic OCR benchmarking dataset 数据集, 应用在 光学字符识别、低资源语言处理 领域

Dataset card 内容：

Files and versions 内容：

社区讨论

斯里兰卡莫拉图瓦大学发布 Tamil synthetic OCR benchmarking dataset 数据集, 应用在光学字符识别、低资源语言处理领域