five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Center za jezikovne vire in tehnologije Univerze v Ljubljani发布WALS-Bench数据集,应用在多语言评估、语言类型学领域

五号数据雷达开源数据市场2026-03-11 03:2920
WALS-Bench是Center za jezikovne vire in tehnologije Univerze v Ljubljani发布的数据集,于2026-03-10首发在HuggingFace应用于多语言评估、语言类型学领域

Center za jezikovne vire in tehnologije Univerze v Ljubljani本次发布的数据集WALS-Bench,WALS-bench是一个基于世界语言结构图谱(WALS)的大规模多语言基准测试数据集,旨在评估大型语言模型中的元语言知识。该数据集覆盖了192个语言类型学特征,涉及2,660种语言。数据集提供了两种格式:格式1包含192个问题(每个特征一个问题),格式2包含76,475个问题(每个特征-语言组合一个问题)。每个问题都包含一个语言特征描述、可能的答案选项以及特定语言的真实答案。数据集分为训练集(134个特征)、验证集(29个特征)和测试集(29个特征)。数据以JSONL格式存储,包含特征ID、特征名称、领域、问题文本、可能答案和真实答案等信息。语言特征覆盖了词序、名词类别、简单从句、音系学、动词类别、词汇、形态学、名词句法、复杂句子、手语等多个领域。数据集采用CC BY 4.0许可协议,原始数据来自Max Planck进化人类学研究所的世界语言结构图谱。

查看WALS-Bench

关于Center za jezikovne vire in tehnologije Univerze v Ljubljani,Center za jezikovne vire in tehnologije Univerze v Ljubljani是卢布尔雅那大学的一个中心,专注于语言资源和技术的研究与发展。

关于HuggingFace,全球最大的开源机器学习模型和数据集社区平台。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们