宾夕法尼亚州立大学 本次发布的数据集 PEaCE (Printed English and Chemical Equations) dataset, PEaCE数据集是由宾夕法尼亚州立大学的信息科学与技术学院创建,专注于化学领域的光学字符识别(OCR)。该数据集包含超过130万条记录,包括合成和真实世界的文本图像,特别关注化学论文。数据集分为三个部分:打印英语文本、伪化学方程式和数值记录。PEaCE旨在解决现有OCR模型在处理科学文档中特殊格式文本(如上标和下标)时的不足,通过提供包含这些特征的训练数据,提高模型在实际应用中的性能。
查看PEaCE (Printed English and Chemical Equations) dataset
README 内容:
关于 宾夕法尼亚州立大学 , 宾夕法尼亚州立大学(Pennsylvania State University)是美国一所著名的公立研究型大学,位于宾夕法尼亚州,拥有多个校区,提供广泛的学术课程和研究项目。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)