东北大学 本次发布的数据集 PubMed, Chn, 本研究建立了跨领域文档对象检测的基准套件,包含不同类型的PDF文档数据集,如PubMed和Chn。PubMed数据集是从医学期刊文章中提取的,包含超过360万对象实例的标注,涵盖文本、标题、列表、表格和图形等5个类别。Chn数据集是通过爬取中文维基百科页面并转换成带有边界框标注的PDF文件生成的,其布局和样式参数根据真实文档统计随机抽样。这些数据集不仅提供了页面图像和边界框标注,还包括原始PDF文件和PDF渲染层,用于模型训练和评估。数据集的应用领域主要集中在智能文档编辑和理解,旨在解决文档对象在布局、大小、宽高比、纹理等方面的显著变化问题。
README 内容:
关于 东北大学 , 东北大学是一所位于中国辽宁省沈阳市的综合性大学,成立于1923年,是中国教育部直属的重点大学之一,以工科为主,涵盖理、工、文、管、法、经、教育等多个学科领域。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)