five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Center za jezikovne vire in tehnologije Univerze v Ljubljani发布GramQA数据集,应用在语法分析、自然语言处理领域

五号数据雷达开源数据市场2026-03-04 01:0125
GramQA是Center za jezikovne vire in tehnologije Univerze v Ljubljani发布的数据集,于2026-03-03首发在HuggingFace应用于语法分析、自然语言处理领域

Center za jezikovne vire in tehnologije Univerze v Ljubljani本次发布的数据集GramQA,GramQA是一个基于语料库的语法问答评估数据集,专注于不同句法结构中的词序变化。该数据集包含13个受WALS(世界语言结构图谱)启发的语法问题,涵盖了179种语言的基于Universal Dependencies语料库的真实值,可用于跨语言词序比较和模型预测的评估。数据集最初是为基于LLM的代理语法分析系统(UD-Agent)开发的评估基准,现作为独立资源发布以供广泛使用。 对于每个问题-语言对,数据集提供了(i)主导词序模式(语料库中最频繁出现的值)和(ii)所有观察到的词序模式的完整分布及其相对频率。真实值是通过作者开发的一系列Python脚本自动获取的,这些脚本在UD树库(v2.16)的测试部分上实现了基于规则的提取过程。 数据集包含两个主要文件:udagent_eval_data.jsonl(包含1899个条目,每个条目对应一个特征-语言对)和udagent_eval_metadata.json(包含有关包含的语言、使用的UD树库、每个WALS特征关联的问题以及每个特征的可能值集的信息)。数据集适用于问答任务,特别适用于语言学和语法分析领域的研究和应用。

查看GramQA

关于Center za jezikovne vire in tehnologije Univerze v Ljubljani,Center za jezikovne vire in tehnologije Univerze v Ljubljani是卢布尔雅那大学的一个中心,专注于语言资源和技术的研究与发展。

关于HuggingFace,Hugging Face是一个机器学习社区协作平台,专注于模型、数据集和应用程序的创建、发现和协作。该平台支持多种数据类型,包括文本、图像、视频、音频和3D数据,并提供开源工具和付费计算及企业解决方案。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们