five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Typeface,India 发布 Line-Level OCR Dataset 数据集, 应用在 光学字符识别、文档分析 领域

五号数据雷达开源数据市场2025-09-03 07:0517
Line-Level OCR Dataset 是 Typeface,India 发布的数据集,于 2025-08-29 首发在 arXiv 应用于 光学字符识别、文档分析 领域

Typeface,India 本次发布的数据集 Line-Level OCR Dataset, 该数据集为251张英文页面图像,包含行级别的标注,旨在帮助研究人员评估和基准测试端到端的页面级光学字符识别(OCR)技术。图像来源多样,包括故事书和在线文档的印刷版本,时间跨度从1862年到2024年,涵盖了历史和风格上的变化。数据集包含多种识别挑战,如长句子、多列布局、模糊或褪色文本、扭曲的页面、深色背景上的浅色文本、水印、嵌入的图形以及各种字体和排版样式。这种多样性为评估端到端OCR系统提供了一个强大的测试平台。

查看Line-Level OCR Dataset

关于 Typeface,India , -_simple

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们