Ukrainian Catholic University 发布 OmniGEC 数据集, 应用在语法错误纠正、多语言处理领域

首页 / 开源数据市场 / 正文

五号数据雷达开源数据市场2025-09-21 00:0184

OmniGEC 是 Ukrainian Catholic University 发布的数据集,于 2025-09-18 首发在 arXiv 应用于语法错误纠正、多语言处理领域

Ukrainian Catholic University 本次发布的数据集 OmniGEC, OmniGEC是一个用于语法错误纠正(GEC)的多语言银标准数据集，覆盖了11种语言：捷克语、英语、爱沙尼亚语、德语、希腊语、冰岛语、意大利语、拉脱维亚语、斯洛文尼亚语、瑞典语和乌克兰语。这些数据集有助于开发多语言GEC解决方案，并有助于弥合将英语GEC解决方案适应多语言GEC的数据差距。数据集的文本来自三个来源：11种目标语言的维基百科编辑、11种目标语言的Reddit子版块和仅乌克兰的UberText 2.0社交媒体语料库。维基百科编辑是从人工纠正中派生出来的，而Reddit和UberText 2.0数据是使用GPT-4o-mini模型自动纠正的。数据集中的校正质量既通过自动方式也通过手动方式进行评估。最后，我们对两个开源大型语言模型——Aya-Expanse (8B)和Gemma-3(12B)——进行了微调，并在多语言OmniGEC语料库上取得了段落级多语言GEC的最新(SOTA)成果。数据集收集和表现最佳的模型可在Hugging Face上获得。

查看OmniGEC

Dataset card 内容：

Files and versions 内容：

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

近期热门