five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

美国国会图书馆 发布 Newspaper Navigator Dataset 数据集, 应用在 历史报纸、数据挖掘 领域

五号数据雷达开源数据市场2024-10-13 19:1780
Newspaper Navigator Dataset 是 美国国会图书馆 发布的数据集,于 2020-05-04 首发在 arXiv 应用于 历史报纸、数据挖掘 领域

美国国会图书馆 本次发布的数据集 Newspaper Navigator Dataset, Newspaper Navigator Dataset是由美国国会图书馆创建的大型数据集,包含超过1600万页的历史美国报纸页面。该数据集通过深度学习模型提取了包括标题、照片、插图、地图、漫画、社论漫画和广告在内的7类视觉内容。创建过程涉及使用Beyond Words众包项目中的边界框注释来训练视觉内容识别模型,并自动从METS/ALTO OCR中提取文本内容。该数据集的应用领域广泛,旨在通过数字化历史报纸内容,支持学术研究、教育、公共历史和创意计算等多个领域的需求,解决历史报纸内容分析和检索的问题。

查看Newspaper Navigator Dataset

README 内容: 

 

关于 美国国会图书馆 , 美国国会图书馆是美国的国家图书馆,成立于1800年,位于华盛顿特区。它是世界上最大的图书馆之一,收藏了超过1.6亿件物品,包括书籍、手稿、地图、乐谱、照片、电影和数字资料。该图书馆不仅为国会提供服务,也对公众开放,支持研究、教育和文化活动。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们