图卢兹第二大学本次发布的数据集GLeMM,GLeMM是由法国国家科学研究中心联合多所高校开发的大规模多语言形态学数据集,覆盖德语、英语等7种欧洲语言。该数据集基于Wiktionary词条构建,采用全自动化流程标注词形变化特征,并包含语义描述子集,总数据量未明确但强调其规模优势。通过解析词典释义中的形态派生关系,结合FAPinette算法验证词对关联性,最终形成可支持形态学理论验证的计算资源。该数据集主要应用于派生形态学研究领域,旨在解决传统方法依赖直觉、数据量不足导致的结论泛化性差等问题,为词法结构分析和跨语言比较提供量化基础。
关于图卢兹第二大学,图卢兹第二大学(Université Toulouse-Jean Jaurès)是法国图卢兹市的一所公立大学,以人文社会科学为主要研究领域,隶属于图卢兹大学联盟。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)