Typeface,India 本次发布的数据集 Line-Level OCR Dataset, 该数据集为251张英文页面图像,包含行级别的标注,旨在帮助研究人员评估和基准测试端到端的页面级光学字符识别(OCR)技术。图像来源多样,包括故事书和在线文档的印刷版本,时间跨度从1862年到2024年,涵盖了历史和风格上的变化。数据集包含多种识别挑战,如长句子、多列布局、模糊或褪色文本、扭曲的页面、深色背景上的浅色文本、水印、嵌入的图形以及各种字体和排版样式。这种多样性为评估端到端OCR系统提供了一个强大的测试平台。
关于 Typeface,India , -_simple
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)