five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

华南理工大学 发布 Table Recognition Set (TabRecSet) 数据集, 应用在 表格识别、文档分析 领域

五号数据雷达开源数据市场2024-10-13 05:21115
Table Recognition Set (TabRecSet) 是 华南理工大学 发布的数据集,于 2023-03-27 首发在 arXiv 应用于 表格识别、文档分析 领域

华南理工大学 本次发布的数据集 Table Recognition Set (TabRecSet), Table Recognition Set (TabRecSet) 是一个大规模的数据集,专门为野外环境下的端到端表格识别研究设计。该数据集包含38,177个表格,其中20,415个为英文,17,762个为中文,涵盖了从扫描到相机拍摄的各种场景,如文档、Excel表格、考试试卷和财务发票等。TabRecSet的标注非常完整,包括表格主体空间标注、单元格空间与逻辑标注以及文本内容,用于表格检测、表格结构识别和表格内容识别。此外,数据集使用多边形而非传统的边界框或四边形进行空间标注,更适合野外场景中常见的非规则表格。TabRecSet还包含多种表格形式,如规则和非规则表格(旋转、扭曲等),以及完整的和不完整的边框表格。数据集的应用领域旨在解决端到端表格识别中的挑战,特别是在复杂和多变的野外环境中。

查看Table Recognition Set (TabRecSet)

关于 华南理工大学 , 华南理工大学是中国的一所著名综合性大学,位于广东省广州市,是国家“双一流”、“211工程”和“985工程”重点建设高校。学校在工程、材料科学、化学等领域具有较强的研究实力。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们