哈佛-史密松森天体物理中心本次发布的数据集AstroConcepts,AstroConcepts是由哈佛-史密松森天体物理中心构建的大规模多标签天体物理文献语料库,包含21,702篇论文摘要,标注覆盖天文学统一词表(UAT)的2,367个层级化概念,数据源自NASA科学探索平台(SciX)索引的2018-2023年期刊文献。数据集平均每篇摘要含4.31个标签,呈现显著的长尾分布(76%概念出现少于50次),文本平均长度211词。该资源通过作者提交时标注的标准化UAT概念构建,旨在支持极端类别不均衡场景下的科学文献多标签分类研究,尤其适用于天体物理领域术语的少样本学习与层次化预测任务。
关于哈佛-史密松森天体物理中心,哈佛-史密松森天体物理中心(Harvard-Smithsonian Center for Astrophysics)是由哈佛大学天文台和史密松森天体物理天文台于1973年联合成立的研究机构,专注于天文学、天体物理学及相关领域的研究。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)