美国国会图书馆 本次发布的数据集 Newspaper Navigator Dataset, Newspaper Navigator Dataset是由美国国会图书馆创建的大型数据集,包含超过1600万页的历史美国报纸页面。该数据集通过深度学习模型提取了包括标题、照片、插图、地图、漫画、社论漫画和广告在内的7类视觉内容。创建过程涉及使用Beyond Words众包项目中的边界框注释来训练视觉内容识别模型,并自动从METS/ALTO OCR中提取文本内容。该数据集的应用领域广泛,旨在通过数字化历史报纸内容,支持学术研究、教育、公共历史和创意计算等多个领域的需求,解决历史报纸内容分析和检索的问题。
README 内容:
关于 美国国会图书馆 , 美国国会图书馆是美国的国家图书馆,成立于1800年,位于华盛顿特区。它是世界上最大的图书馆之一,收藏了超过1.6亿件物品,包括书籍、手稿、地图、乐谱、照片、电影和数字资料。该图书馆不仅为国会提供服务,也对公众开放,支持研究、教育和文化活动。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)