华南理工大学 本次发布的数据集 Table Recognition Set (TabRecSet), Table Recognition Set (TabRecSet) 是一个大规模的数据集,专门为野外环境下的端到端表格识别研究设计。该数据集包含38,177个表格,其中20,415个为英文,17,762个为中文,涵盖了从扫描到相机拍摄的各种场景,如文档、Excel表格、考试试卷和财务发票等。TabRecSet的标注非常完整,包括表格主体空间标注、单元格空间与逻辑标注以及文本内容,用于表格检测、表格结构识别和表格内容识别。此外,数据集使用多边形而非传统的边界框或四边形进行空间标注,更适合野外场景中常见的非规则表格。TabRecSet还包含多种表格形式,如规则和非规则表格(旋转、扭曲等),以及完整的和不完整的边框表格。数据集的应用领域旨在解决端到端表格识别中的挑战,特别是在复杂和多变的野外环境中。
查看Table Recognition Set (TabRecSet)
关于 华南理工大学 , 华南理工大学是中国的一所著名综合性大学,位于广东省广州市,是国家“双一流”、“211工程”和“985工程”重点建设高校。学校在工程、材料科学、化学等领域具有较强的研究实力。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)