首页 / 开源数据市场 / 正文

维也纳大学发布SlovKE数据集,应用在关键词提取、低资源语言处理领域

五号数据雷达开源数据市场2026-03-18 03:2516

SlovKE是维也纳大学发布的数据集,于2026-03-17首发在arXiv应用于关键词提取、低资源语言处理领域

维也纳大学本次发布的数据集SlovKE,SlovKE是由NaiveNeuron等机构联合构建的斯洛伐克语关键词提取基准数据集，包含22.7万篇经过系统清洗的科学摘要及作者标注的关键短语，规模达到先前最大斯洛伐克语资源的25倍。数据集源自斯洛伐克中央论文注册系统，通过多阶段清洗流程去除重复记录、混合语言内容和不一致元数据，最终保留50-2000字符的摘要和4-15个关键短语。该数据集支持形态复杂语言的关键词提取研究，特别针对低资源斯拉夫语系语言中词形变化导致的表面形式与规范短语不匹配问题，为无监督方法和LLM模型提供了重要评估基准。

查看SlovKE

关于维也纳大学,维也纳大学是奥地利历史最悠久的大学，成立于1365年，也是德语区最古老的大学之一。该校是一所综合性研究型大学，提供广泛的学科教育和研究机会。

关于arXiv,全球最大的预印本学术论文数据库，涵盖物理、数学、计算机科学等多个学科领域。

社区讨论

近期热门