首页 / 开源数据市场 / 正文

Center za jezikovne vire in tehnologije Univerze v Ljubljani发布WALS-Bench数据集,应用在多语言评估、语言类型学领域

五号数据雷达开源数据市场2026-03-11 03:2920

WALS-Bench是Center za jezikovne vire in tehnologije Univerze v Ljubljani发布的数据集,于2026-03-10首发在HuggingFace应用于多语言评估、语言类型学领域

Center za jezikovne vire in tehnologije Univerze v Ljubljani本次发布的数据集WALS-Bench,WALS-bench是一个基于世界语言结构图谱（WALS）的大规模多语言基准测试数据集，旨在评估大型语言模型中的元语言知识。该数据集覆盖了192个语言类型学特征，涉及2,660种语言。数据集提供了两种格式：格式1包含192个问题（每个特征一个问题），格式2包含76,475个问题（每个特征-语言组合一个问题）。每个问题都包含一个语言特征描述、可能的答案选项以及特定语言的真实答案。数据集分为训练集（134个特征）、验证集（29个特征）和测试集（29个特征）。数据以JSONL格式存储，包含特征ID、特征名称、领域、问题文本、可能答案和真实答案等信息。语言特征覆盖了词序、名词类别、简单从句、音系学、动词类别、词汇、形态学、名词句法、复杂句子、手语等多个领域。数据集采用CC BY 4.0许可协议，原始数据来自Max Planck进化人类学研究所的世界语言结构图谱。

查看WALS-Bench

关于Center za jezikovne vire in tehnologije Univerze v Ljubljani,Center za jezikovne vire in tehnologije Univerze v Ljubljani是卢布尔雅那大学的一个中心，专注于语言资源和技术的研究与发展。

关于HuggingFace,全球最大的开源机器学习模型和数据集社区平台。

社区讨论

近期热门