首页 / 开源数据市场 / 正文

美国国会图书馆发布 Newspaper Navigator Dataset 数据集, 应用在历史报纸、数据挖掘领域

五号数据雷达开源数据市场2024-10-13 19:1780

Newspaper Navigator Dataset 是美国国会图书馆发布的数据集,于 2020-05-04 首发在 arXiv 应用于历史报纸、数据挖掘领域

美国国会图书馆本次发布的数据集 Newspaper Navigator Dataset, Newspaper Navigator Dataset是由美国国会图书馆创建的大型数据集，包含超过1600万页的历史美国报纸页面。该数据集通过深度学习模型提取了包括标题、照片、插图、地图、漫画、社论漫画和广告在内的7类视觉内容。创建过程涉及使用Beyond Words众包项目中的边界框注释来训练视觉内容识别模型，并自动从METS/ALTO OCR中提取文本内容。该数据集的应用领域广泛，旨在通过数字化历史报纸内容，支持学术研究、教育、公共历史和创意计算等多个领域的需求，解决历史报纸内容分析和检索的问题。

查看Newspaper Navigator Dataset

README 内容：

关于美国国会图书馆 , 美国国会图书馆是美国的国家图书馆，成立于1800年，位于华盛顿特区。它是世界上最大的图书馆之一，收藏了超过1.6亿件物品，包括书籍、手稿、地图、乐谱、照片、电影和数字资料。该图书馆不仅为国会提供服务，也对公众开放，支持研究、教育和文化活动。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

美国国会图书馆 发布 Newspaper Navigator Dataset 数据集, 应用在 历史报纸、数据挖掘 领域

README 内容：

社区讨论

美国国会图书馆发布 Newspaper Navigator Dataset 数据集, 应用在历史报纸、数据挖掘领域