首页 / 开源数据市场 / 正文

奥胡斯人文计算中心开放19世纪丹麦报业图书广告数据集填补历史语言NLP与出版史研究数据缺口

五号数据雷达开源数据市场2026-05-21 19:545

北欧领先数字人文研究机构奥胡斯人文计算中心于2026年5月19日在Hugging Face首发danish-book-ads数据集，收录1800-1850年9家丹麦地方报纸的8万余条结构化图书广告记录，为古丹麦语文本分类任务、19世纪丹麦出版史与阅读文化研究提供标准化开放数据支撑。

随着数字人文跨学科研究的快速发展，结构化历史文献数据集已成为连接NLP技术与人文社科研究的核心基础设施，尤其是针对近代地方出版、阅读文化的研究，长期面临原始文献分散、标注成本高、低资源历史语言训练数据不足的痛点。北欧领先的数字人文研究机构奥胡斯人文计算中心（Center for Humanities Computing Aarhus）于2026年5月19日在Hugging Face平台正式开放danish-book-ads数据集，为相关领域研究提供了高质量的公共数据资源。

本次发布的数据集全称为“丹麦报纸广告中的书籍与期刊（1800-1850）”，原始数据来源于9家丹麦地方报纸的官方数字化档案，经过自动化提取、清洗与标注后，共收录80938条有效广告记录，每条记录对应一个独立的书籍或期刊公告。数据集核心字段覆盖从原始文本到结构化标注的全维度信息：既包括经清理的书籍标题、原始广告文本、发布日期、广告类型（书籍、期刊或年鉴日历）、订阅信息、发布方信息等基础元数据，也包含研究团队重构的作者全名、姓氏、名字等实体信息，以及由TF-IDF逻辑回归分类器预测的10类主题标签（涵盖农业与家政、教育、历史地理哲学、法律政治、文学、音乐、宗教神学、戏剧等，另设“未知”类别），同时标注了分类器置信度，部分记录还附带手动验证标记“gold”或作者启发式标记“author”，数据质量满足专业研究需求。值得注意的是，该数据集所有文本均采用19世纪丹麦语正字法，当前为单一训练集未划分验证/测试集，研究人员可根据研究场景自行拆分，数据集采用CC BY 4.0许可协议开放，商业与非商业研究均可合规使用。

据官方介绍，该数据集可覆盖两大核心应用方向：在NLP技术研究领域，作为稀缺的标注型19世纪丹麦语数据集，可用于低资源历史语言的文本分类、命名实体识别、信息提取等模型的训练与优化，填补了近代北欧语言NLP训练数据的空白；在数字人文与社科研究领域，可支撑19世纪早期丹麦图书市场结构、出版地理分布、公共阅读文化变迁、地方知识传播路径等方向的研究，研究人员可通过主题标签的时间维度变化，探索同期丹麦教育普及、宗教传播、农业技术推广等社会进程与出版业的关联，也可结合馆藏数据、人口普查数据等其他公共数据集，构建更完整的近代丹麦社会文化图景。作为公共学术数据资源的典型代表，该数据集的开放也为全球历史文献数据的标准化整理、开放共享提供了可参考的实践范式，进一步完善了数字人文领域的公共数据基础设施。

查看danish-book-ads

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

奥胡斯人文计算中心开放19世纪丹麦报业图书广告数据集 填补历史语言NLP与出版史研究数据缺口

Dataset card内容：

Files and versions内容：

社区讨论

奥胡斯人文计算中心开放19世纪丹麦报业图书广告数据集填补历史语言NLP与出版史研究数据缺口