five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

图卢兹第二大学发布GLeMM数据集,应用在形态学、多语言处理领域

五号数据雷达开源数据市场2026-04-17 09:235
GLeMM是图卢兹第二大学发布的数据集,于2026-04-14首发在arXiv应用于形态学、多语言处理领域

图卢兹第二大学本次发布的数据集GLeMM,GLeMM是由法国国家科学研究中心联合多所高校开发的大规模多语言形态学数据集,覆盖德语、英语等7种欧洲语言。该数据集基于Wiktionary词条构建,采用全自动化流程标注词形变化特征,并包含语义描述子集,总数据量未明确但强调其规模优势。通过解析词典释义中的形态派生关系,结合FAPinette算法验证词对关联性,最终形成可支持形态学理论验证的计算资源。该数据集主要应用于派生形态学研究领域,旨在解决传统方法依赖直觉、数据量不足导致的结论泛化性差等问题,为词法结构分析和跨语言比较提供量化基础。

查看GLeMM

关于图卢兹第二大学,图卢兹第二大学(Université Toulouse-Jean Jaurès)是法国图卢兹市的一所公立大学,以人文社会科学为主要研究领域,隶属于图卢兹大学联盟。

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们