印度理工学院甘地分校 本次发布的数据集 TabLeX, TabLeX是由印度理工学院甘地分校创建的大规模基准数据集,专注于科学文章中表格的结构和内容信息提取。该数据集包含两个子集:一个用于表格结构提取,另一个用于表格内容提取,总计超过四百万张图像。每个表格图像都附带其相应的LaTeX源代码,支持多种字体和不同宽高比,以增强数据集的多样性和复杂性。TabLeX旨在解决现有表格信息提取工具在处理科学论文中复杂表格时的不足,特别是在跨单元格和数学内容处理上的挑战。
关于 印度理工学院甘地分校 , 印度理工学院甘地分校(Indian Institute of Technology Gandhinagar,简称IIT Gandhinagar)是印度理工学院系统中的一所著名工程技术大学,位于印度古吉拉特邦的甘地纳加尔市。该校提供广泛的工程、科学和管理课程,致力于培养高素质的科技人才。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。




_1769672084863.jpg)