随着数字人文跨学科研究的快速发展,结构化历史文献数据集已成为连接NLP技术与人文社科研究的核心基础设施,尤其是针对近代地方出版、阅读文化的研究,长期面临原始文献分散、标注成本高、低资源历史语言训练数据不足的痛点。北欧领先的数字人文研究机构奥胡斯人文计算中心(Center for Humanities Computing Aarhus)于2026年5月19日在Hugging Face平台正式开放danish-book-ads数据集,为相关领域研究提供了高质量的公共数据资源。
本次发布的数据集全称为“丹麦报纸广告中的书籍与期刊(1800-1850)”,原始数据来源于9家丹麦地方报纸的官方数字化档案,经过自动化提取、清洗与标注后,共收录80938条有效广告记录,每条记录对应一个独立的书籍或期刊公告。数据集核心字段覆盖从原始文本到结构化标注的全维度信息:既包括经清理的书籍标题、原始广告文本、发布日期、广告类型(书籍、期刊或年鉴日历)、订阅信息、发布方信息等基础元数据,也包含研究团队重构的作者全名、姓氏、名字等实体信息,以及由TF-IDF逻辑回归分类器预测的10类主题标签(涵盖农业与家政、教育、历史地理哲学、法律政治、文学、音乐、宗教神学、戏剧等,另设“未知”类别),同时标注了分类器置信度,部分记录还附带手动验证标记“gold”或作者启发式标记“author”,数据质量满足专业研究需求。值得注意的是,该数据集所有文本均采用19世纪丹麦语正字法,当前为单一训练集未划分验证/测试集,研究人员可根据研究场景自行拆分,数据集采用CC BY 4.0许可协议开放,商业与非商业研究均可合规使用。
据官方介绍,该数据集可覆盖两大核心应用方向:在NLP技术研究领域,作为稀缺的标注型19世纪丹麦语数据集,可用于低资源历史语言的文本分类、命名实体识别、信息提取等模型的训练与优化,填补了近代北欧语言NLP训练数据的空白;在数字人文与社科研究领域,可支撑19世纪早期丹麦图书市场结构、出版地理分布、公共阅读文化变迁、地方知识传播路径等方向的研究,研究人员可通过主题标签的时间维度变化,探索同期丹麦教育普及、宗教传播、农业技术推广等社会进程与出版业的关联,也可结合馆藏数据、人口普查数据等其他公共数据集,构建更完整的近代丹麦社会文化图景。作为公共学术数据资源的典型代表,该数据集的开放也为全球历史文献数据的标准化整理、开放共享提供了可参考的实践范式,进一步完善了数字人文领域的公共数据基础设施。





_1769672084863.jpg)