five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

哈佛-史密松森天体物理中心发布AstroConcepts数据集,应用在天体物理学、文本分类领域

五号数据雷达开源数据市场2026-04-04 05:3724
AstroConcepts是哈佛-史密松森天体物理中心发布的数据集,于2026-04-02首发在arXiv应用于天体物理学、文本分类领域

哈佛-史密松森天体物理中心本次发布的数据集AstroConcepts,AstroConcepts是由哈佛-史密松森天体物理中心构建的大规模多标签天体物理文献语料库,包含21,702篇论文摘要,标注覆盖天文学统一词表(UAT)的2,367个层级化概念,数据源自NASA科学探索平台(SciX)索引的2018-2023年期刊文献。数据集平均每篇摘要含4.31个标签,呈现显著的长尾分布(76%概念出现少于50次),文本平均长度211词。该资源通过作者提交时标注的标准化UAT概念构建,旨在支持极端类别不均衡场景下的科学文献多标签分类研究,尤其适用于天体物理领域术语的少样本学习与层次化预测任务。

查看AstroConcepts

关于哈佛-史密松森天体物理中心,哈佛-史密松森天体物理中心(Harvard-Smithsonian Center for Astrophysics)是由哈佛大学天文台和史密松森天体物理天文台于1973年联合成立的研究机构,专注于天文学、天体物理学及相关领域的研究。

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们