新加坡国立大学 本次发布的数据集 ACL OCL Corpus, ACL OCL Corpus是由新加坡国立大学计算机学院创建的一个学术语料库,源自ACL Anthology,旨在支持计算语言学领域的开放科学研究。该数据集整合并增强了之前的ACL Anthology版本,提供了元数据、PDF文件、引用图和附加的结构化全文,包含章节、图表和链接到大型知识资源(如Semantic Scholar)。ACL OCL涵盖了七个十年,包含73,000篇论文和210,000个图表。数据集通过监督神经模型检测论文主题,展示了计算语言学中的趋势,如对“句法:标记、分块和解析”的兴趣减退和对“自然语言生成”的兴趣复苏。该数据集适用于多模态研究,如图表标题生成,并通过链接大型科学知识图谱来丰富外部信息,如从Semantic Scholar获取的引用数据和与其他平台(如arXiv)的链接。
Dataset card 内容:
Files and versions 内容:
关于 新加坡国立大学 , 新加坡国立大学(National University of Singapore,简称NUS)是新加坡最古老且最负盛名的大学之一,提供广泛的学科和研究领域,包括工程、科学、医学、社会科学和人文科学等。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)