five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

丹麦奥胡斯大学发布hist-dk-pos历史语料标注数据集 首发HuggingFace赋能多领域研究

五号数据雷达开源数据市场2026-05-09 03:1416
丹麦奥胡斯大学人文计算中心联合奥尔堡大学团队于2026年5月8日在HuggingFace首发1824年丹麦语历史文本词性标注数据集hist-dk-pos,该数据集采用CC0协议开放,可为历史语言学研究、古丹麦语NLP模型训练、近代丹麦社会文化溯源等场景提供高质量语料支撑。

当前,自然语言处理技术的研发与应用多集中在现代通用语料场景,针对19世纪及之前的小语种历史语料的高质量标注数据集供给长期不足,既制约了历史语言学的定量研究深度,也限制了面向历史文献的NLP模型开发效率。近日,丹麦奥胡斯大学人文计算中心(Center for Humanities Computing Aarhus)联合奥尔堡大学ENO团队开发的hist-dk-pos数据集于2026年5月8日正式首发上线HuggingFace,为上述领域的研究提供了全新的高质量标注语料支撑。

据介绍,本次发布的hist-dk-pos数据集原始文本抽取自Press-and-Plot数据集(索引10)收录的1824年丹麦出版的历史报纸、小说文本,通过随机抽样选取典型语句构建样本库。标注流程上,团队采用「自动预标注+双人人工校验+最终裁定」的多轮质量管控机制:首先通过SpaCy的丹麦语词性标注器完成自动预标注,再由两名专业标注员独立完成人工修正,最终的标注差异由首位标注员完成终裁,确保标注准确率达到学术研究级标准。目前该数据集由奥胡斯大学人文计算中心GoldenMatrix团队全程策划,共包含704个训练样本,每个样本设置单词(word)、词性标签(pos)两大核心字段,语言为1824年标准丹麦语,采用CC0许可协议开放,支持商业与非商业场景的免费使用。

从应用场景来看,该数据集可广泛覆盖多领域研究需求:在历史语言学领域,研究人员可基于该数据集开展19世纪丹麦语的词性演变、语法规则变迁、词汇语义演化等研究,对比现代丹麦语的语言特征,梳理丹麦语近200年的发展脉络;在自然语言处理领域,可作为训练数据集,开发面向19世纪丹麦历史文献的词性标注模型、文本识别模型,助力丹麦近代历史报纸、手稿、档案等非结构化文献的数字化转写与结构化处理,提升历史文献的挖掘效率;在社会文化研究领域,通过对标注语料的语义分析,可还原1824年丹麦社会的公共议题、文化特征、民众生活风貌,为近代丹麦社会史、传媒史、文学史的研究提供定量分析支撑。

作为小语种历史标注语料的代表性成果,hist-dk-pos数据集的开放,填补了19世纪丹麦语标注语料的供给空白,也为全球人文领域数据集的开发、标注、开放提供了可参考的质量管控范式。近年来,随着全球数字人文领域的快速发展,高质量人文标注数据集已经成为支撑跨学科研究的核心数据要素,本次数据集采用CC0协议开放,进一步降低了全球相关领域研究人员的获取门槛,对推动数字人文交叉学科发展、激活历史文化数据要素价值具有积极意义。

查看hist-dk-pos

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们