Post-OCR-Correction是由Pleias公司构建的一个大规模多语言OCR校正数据集。该数据集包含约50.4K行数据,词汇量达10亿,涵盖了原始文本以及带有不同数量OCR错误的实验性多语言校正输出。所有文本均来源于Common Corpus,这是Pleias公司在HuggingFace平台上发布的、用于预训练的最大规模的开放语料库,包含了法语、英语、德语和意大利语的文化遗产文本。Post-OCR-Correction旨在解决OCR技术在文本识别上的局限,通过校正提高文本数据的准确性,从而增强其在人工智能模型训练和文化分析研究中的应用价值。
详情请参见五号雷达:https://www.5radar.com/result?key=Post-OCR-Correction





_1769672084863.jpg)