首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】Post-OCR-Correction - 大规模多语言OCR校正数据集

五号雷达开源数据市场2024-04-29 10:3065

Post-OCR-Correction旨在解决OCR技术在文本识别上的局限，通过校正提高文本数据的准确性，从而增强其在人工智能模型训练和文化分析研究中的应用价值。

Post-OCR-Correction是由Pleias公司构建的一个大规模多语言OCR校正数据集。该数据集包含约50.4K行数据，词汇量达10亿，涵盖了原始文本以及带有不同数量OCR错误的实验性多语言校正输出。所有文本均来源于Common Corpus，这是Pleias公司在HuggingFace平台上发布的、用于预训练的最大规模的开放语料库，包含了法语、英语、德语和意大利语的文化遗产文本。Post-OCR-Correction旨在解决OCR技术在文本识别上的局限，通过校正提高文本数据的准确性，从而增强其在人工智能模型训练和文化分析研究中的应用价值。

详情请参见五号雷达：https://www.5radar.com/result?key=Post-OCR-Correction

社区讨论

近期热门