five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

奥胡斯人文计算中心发布丹麦书籍广告原始数据集 13万+标注样本登陆HuggingFace赋能文本分析研究

五号数据雷达开源数据市场2026-05-20 03:2816
丹麦奥胡斯人文计算中心于2026年5月19日在HuggingFace平台首发danish-book-ads-raw-data数据集,共收录13.8万余条标注化的报纸书籍广告样本,可为书籍广告分析、丹麦语文本分类、数字人文研究等场景提供高价值的垂直领域数据支撑。

随着数字人文、自然语言处理(NLP)等交叉领域的快速发展,垂直领域的标注化历史文本数据正在成为科研创新的核心基础资源。近日,北欧顶尖数字人文研究机构、丹麦奥胡斯大学下属Center for Humanities Computing Aarhus(奥胡斯人文计算中心)正式对外发布danish-book-ads-raw-data数据集,该数据集首发于全球知名AI数据集与模型托管平台HuggingFace,为相关领域研究者提供了稀缺的小语种垂直场景数据选项。

本次发布的danish-book-ads-raw-data数据集仅包含训练集,共计 138,561 个样本,数据总量约为 932 MB。每个样本覆盖10类结构化字段,具体包括:文本内容(text)、日期(date)、唯一标识符(id)、报纸来源(newspaper)、一个浮点数列表(pooled)、预测类别(predicted_category)、字符数(characters)、预测书籍公告(predicted_book_announce)、书籍公告(book_announce)以及评论(comment)。需要注意的是,目前该数据集公开的README信息中暂未披露数据集的具体背景、来源渠道、构建逻辑及官方推荐适用任务,相关使用者可结合自身研究需求进行筛选适配。

从字段属性来看,该数据集的应用场景覆盖多个研究与产业方向:在数字人文研究领域,研究者可通过不同时段、不同报纸平台的书籍广告投放数据,复盘丹麦出版行业的发展脉络、不同时期的读者阅读偏好变迁,以及出版机构的营销传播规律;在NLP技术研发领域,带标注的丹麦语文本可直接用于小语种文本分类、广告语义识别、印刷体历史文本OCR校正等模型的训练与测试,有效降低相关算法研发的标注成本;在传媒与出版产业研究领域,该数据集还可与图书销售数据、读者调研数据等联动,开展书籍广告投放效果的回溯分析,为当下的出版营销决策提供历史参照。

当前全球数据要素市场建设中,公共科研数据集是重要的公共创新基础设施,尤其是人文社科与技术交叉领域的结构化标注数据,长期存在供给不足的问题。本次奥胡斯人文计算中心发布的垂直领域数据集,不仅填补了丹麦语书籍广告类公开数据的空白,也为全球数字人文领域的跨区域、跨语言对比研究提供了新的数据源支撑。

查看danish-book-ads-raw-data

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们