Ukrainian Catholic University 本次发布的数据集 OmniGEC, OmniGEC是一个用于语法错误纠正(GEC)的多语言银标准数据集,覆盖了11种语言:捷克语、英语、爱沙尼亚语、德语、希腊语、冰岛语、意大利语、拉脱维亚语、斯洛文尼亚语、瑞典语和乌克兰语。这些数据集有助于开发多语言GEC解决方案,并有助于弥合将英语GEC解决方案适应多语言GEC的数据差距。数据集的文本来自三个来源:11种目标语言的维基百科编辑、11种目标语言的Reddit子版块和仅乌克兰的UberText 2.0社交媒体语料库。维基百科编辑是从人工纠正中派生出来的,而Reddit和UberText 2.0数据是使用GPT-4o-mini模型自动纠正的。数据集中的校正质量既通过自动方式也通过手动方式进行评估。最后,我们对两个开源大型语言模型——Aya-Expanse (8B)和Gemma-3(12B)——进行了微调,并在多语言OmniGEC语料库上取得了段落级多语言GEC的最新(SOTA)成果。数据集收集和表现最佳的模型可在Hugging Face上获得。
Dataset card 内容:
Files and versions 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。




_1769672084863.jpg)