five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

宾夕法尼亚州立大学 发布 PEaCE (Printed English and Chemical Equations) dataset 数据集, 应用在 化学、光学字符识别 领域

五号数据雷达开源数据市场2024-10-13 11:4363
PEaCE (Printed English and Chemical Equations) dataset 是 宾夕法尼亚州立大学 发布的数据集,于 2024-03-23 首发在 arXiv 应用于 化学、光学字符识别 领域

宾夕法尼亚州立大学 本次发布的数据集 PEaCE (Printed English and Chemical Equations) dataset, PEaCE数据集是由宾夕法尼亚州立大学的信息科学与技术学院创建,专注于化学领域的光学字符识别(OCR)。该数据集包含超过130万条记录,包括合成和真实世界的文本图像,特别关注化学论文。数据集分为三个部分:打印英语文本、伪化学方程式和数值记录。PEaCE旨在解决现有OCR模型在处理科学文档中特殊格式文本(如上标和下标)时的不足,通过提供包含这些特征的训练数据,提高模型在实际应用中的性能。

查看PEaCE (Printed English and Chemical Equations) dataset

README 内容: 

 

关于 宾夕法尼亚州立大学 , 宾夕法尼亚州立大学(Pennsylvania State University)是美国一所著名的公立研究型大学,位于宾夕法尼亚州,拥有多个校区,提供广泛的学术课程和研究项目。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们