沙特阿拉伯国王大学 本次发布的数据集 Cross-Lingual SynthDocs, Cross-Lingual SynthDocs是一个大型的合成语料库,旨在解决阿拉伯语资源在光学字符识别(OCR)和文档理解(DU)方面的稀缺问题。该数据集包含超过250万个样本,包括150万个文本数据、27万个完全标注的表格以及成千上万的基于真实数据的图表。数据集的创建过程使用了真实的扫描背景、双语布局和带重音符号的字体来捕捉阿拉伯文档的排版和结构复杂性。除了文本,语料库还包括各种渲染样式的图表和表格。在SynthDocs上进行微调的Qwen-2.5-VL在多个公共阿拉伯基准测试中的单词错误率(WER)和字符错误率(CER)方面取得了一致的改进,其他模态的树编辑距离相似度(TEDS)和图表提取分数(CharTeX)也有所提高。SynthDocs提供了一个可扩展的、视觉上逼真的资源,用于推进多语言文档分析的研究。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)