five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】Post-OCR-Correction - 大规模多语言OCR校正数据集

五号雷达开源数据市场2024-04-29 10:3065
Post-OCR-Correction旨在解决OCR技术在文本识别上的局限,通过校正提高文本数据的准确性,从而增强其在人工智能模型训练和文化分析研究中的应用价值。

Post-OCR-Correction是由Pleias公司构建的一个大规模多语言OCR校正数据集。该数据集包含约50.4K行数据,词汇量达10亿,涵盖了原始文本以及带有不同数量OCR错误的实验性多语言校正输出。所有文本均来源于Common Corpus,这是Pleias公司在HuggingFace平台上发布的、用于预训练的最大规模的开放语料库,包含了法语、英语、德语和意大利语的文化遗产文本。Post-OCR-Correction旨在解决OCR技术在文本识别上的局限,通过校正提高文本数据的准确性,从而增强其在人工智能模型训练和文化分析研究中的应用价值。

详情请参见五号雷达:https://www.5radar.com/result?key=Post-OCR-Correction

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们