five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

东北大学 发布 PubMed, Chn 数据集, 应用在 文档分析、智能编辑 领域

五号数据雷达开源数据市场2024-10-13 03:58112
PubMed, Chn 是 东北大学 发布的数据集,于 2020-03-30 首发在 arXiv 应用于 文档分析、智能编辑 领域

东北大学 本次发布的数据集 PubMed, Chn, 本研究建立了跨领域文档对象检测的基准套件,包含不同类型的PDF文档数据集,如PubMed和Chn。PubMed数据集是从医学期刊文章中提取的,包含超过360万对象实例的标注,涵盖文本、标题、列表、表格和图形等5个类别。Chn数据集是通过爬取中文维基百科页面并转换成带有边界框标注的PDF文件生成的,其布局和样式参数根据真实文档统计随机抽样。这些数据集不仅提供了页面图像和边界框标注,还包括原始PDF文件和PDF渲染层,用于模型训练和评估。数据集的应用领域主要集中在智能文档编辑和理解,旨在解决文档对象在布局、大小、宽高比、纹理等方面的显著变化问题。

查看PubMed, Chn

README 内容: 

 

关于 东北大学 , 东北大学是一所位于中国辽宁省沈阳市的综合性大学,成立于1923年,是中国教育部直属的重点大学之一,以工科为主,涵盖理、工、文、管、法、经、教育等多个学科领域。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们