Center za jezikovne vire in tehnologije Univerze v Ljubljani本次发布的数据集WALS-Bench,WALS-bench是一个基于世界语言结构图谱(WALS)的大规模多语言基准测试数据集,旨在评估大型语言模型中的元语言知识。该数据集覆盖了192个语言类型学特征,涉及2,660种语言。数据集提供了两种格式:格式1包含192个问题(每个特征一个问题),格式2包含76,475个问题(每个特征-语言组合一个问题)。每个问题都包含一个语言特征描述、可能的答案选项以及特定语言的真实答案。数据集分为训练集(134个特征)、验证集(29个特征)和测试集(29个特征)。数据以JSONL格式存储,包含特征ID、特征名称、领域、问题文本、可能答案和真实答案等信息。语言特征覆盖了词序、名词类别、简单从句、音系学、动词类别、词汇、形态学、名词句法、复杂句子、手语等多个领域。数据集采用CC BY 4.0许可协议,原始数据来自Max Planck进化人类学研究所的世界语言结构图谱。
关于Center za jezikovne vire in tehnologije Univerze v Ljubljani,Center za jezikovne vire in tehnologije Univerze v Ljubljani是卢布尔雅那大学的一个中心,专注于语言资源和技术的研究与发展。
关于HuggingFace,全球最大的开源机器学习模型和数据集社区平台。





_1769672084863.jpg)