莱比锡大学 本次发布的数据集 Opera Graeca Adnotata (OGA), Opera Graeca Adnotata (OGA) 是由莱比锡大学计算机科学研究所开发的一个针对古希腊语的大型开放访问多层语料库,包含1687部文学作品和超过3400万个Token。该数据集来源于PerseusDL和OpenGreekAndLatin GitHub仓库,涵盖了公元前800年至公元250年的文本。数据集通过七个不同的标注层进行丰富,包括分词、句子分割、词形化、形态学、依存关系、依存功能和CTS引用层。创建过程中,主要采用基于规则的算法进行分词、句子分割和CTS引用,而形态句法标注则依赖于COMBO解析器。OGA数据集的应用领域广泛,旨在解决古希腊语文本的数字化、分析和研究问题,支持语言学、历史学和文献学等多学科研究。
关于 莱比锡大学 , 莱比锡大学是德国的一所公立研究型大学,成立于1409年,是德国最古老的大学之一。该大学在多个学科领域享有盛誉,尤其在医学、法律、经济学和计算机科学等领域具有重要影响力。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)