TIB莱布尼茨科学与技术信息中心本次发布的数据集TIB-SID (TIB Subject Indexing Dataset),TIB-SID是由TIB莱布尼茨中心主导构建的双语(英语/德语)多领域图书馆目录数据集,包含13.6万条标注德国规范文档(GND)主题词的编目记录,涵盖文章、书籍、会议论文等五大文献类型。数据集采用JSON-LD格式存储,包含标题、摘要等元数据,并预置训练集/验证集/测试集划分。其特色在于将大规模文本分类任务与权威知识组织系统结合,通过GND的20.7万个主题词及其层级关系,支持面向图书馆实际需求的语义索引研究,适用于多语言主题映射、检索增强分类等数字图书馆AI应用场景。
查看TIB-SID (TIB Subject Indexing Dataset)
README内容:
关于TIB莱布尼茨科学与技术信息中心,TIB莱布尼茨科学与技术信息中心是德国最大的科学与技术专业图书馆,同时也是全球领先的技术与自然科学领域信息基础设施提供商之一,隶属于莱布尼茨学会。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)