five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

TIB莱布尼茨科学与技术信息中心发布TIB-SID (TIB Subject Indexing Dataset)数据集,应用在语义索引、数字图书馆领域

五号数据雷达开源数据市场2026-03-13 04:5746
TIB-SID (TIB Subject Indexing Dataset)是TIB莱布尼茨科学与技术信息中心发布的数据集,于2026-03-11首发在arXiv应用于语义索引、数字图书馆领域

TIB莱布尼茨科学与技术信息中心本次发布的数据集TIB-SID (TIB Subject Indexing Dataset),TIB-SID是由TIB莱布尼茨中心主导构建的双语(英语/德语)多领域图书馆目录数据集,包含13.6万条标注德国规范文档(GND)主题词的编目记录,涵盖文章、书籍、会议论文等五大文献类型。数据集采用JSON-LD格式存储,包含标题、摘要等元数据,并预置训练集/验证集/测试集划分。其特色在于将大规模文本分类任务与权威知识组织系统结合,通过GND的20.7万个主题词及其层级关系,支持面向图书馆实际需求的语义索引研究,适用于多语言主题映射、检索增强分类等数字图书馆AI应用场景。

查看TIB-SID (TIB Subject Indexing Dataset)

README内容:

 

关于TIB莱布尼茨科学与技术信息中心,TIB莱布尼茨科学与技术信息中心是德国最大的科学与技术专业图书馆,同时也是全球领先的技术与自然科学领域信息基础设施提供商之一,隶属于莱布尼茨学会。

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们