拉合尔管理科学大学 本次发布的数据集 低资源脚本OCR评估数据集, 低资源脚本OCR评估数据集由拉合尔管理科学大学精心构建,包含2520张图像,涵盖乌尔都语、英语、阿尔巴尼亚语和塔吉克语四种语言,旨在评估大语言模型在光学字符识别中的性能。数据集通过控制文本长度、字体大小、背景颜色和模糊度等视觉条件,模拟了多样化的现实世界挑战。创建过程中,数据集通过手动格式化和图像增强技术生成,确保了数据集的高质量和多样性。该数据集主要应用于低资源语言的文本数字化,旨在解决这些语言在OCR和自然语言处理中的可访问性问题。
关于 拉合尔管理科学大学 , 拉合尔管理科学大学(University of Management and Technology, Lahore)是巴基斯坦的一所私立大学,成立于1990年,主要专注于管理科学、工程和计算机科学等领域的教育与研究。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)