five

五号数据雷达

资产融资
资源入表
产品交易
知识产权
首页 / 开源数据市场 / 正文
Ukrainian Catholic University 发布 OmniGEC 数据集, 应用在 语法错误纠正、多语言处理 领域
五号数据雷达开源数据市场2025-09-21 00:0184
OmniGEC 是 Ukrainian Catholic University 发布的数据集,于 2025-09-18 首发在 arXiv 应用于 语法错误纠正、多语言处理 领域

Ukrainian Catholic University 本次发布的数据集 OmniGEC, OmniGEC是一个用于语法错误纠正(GEC)的多语言银标准数据集,覆盖了11种语言:捷克语、英语、爱沙尼亚语、德语、希腊语、冰岛语、意大利语、拉脱维亚语、斯洛文尼亚语、瑞典语和乌克兰语。这些数据集有助于开发多语言GEC解决方案,并有助于弥合将英语GEC解决方案适应多语言GEC的数据差距。数据集的文本来自三个来源:11种目标语言的维基百科编辑、11种目标语言的Reddit子版块和仅乌克兰的UberText 2.0社交媒体语料库。维基百科编辑是从人工纠正中派生出来的,而Reddit和UberText 2.0数据是使用GPT-4o-mini模型自动纠正的。数据集中的校正质量既通过自动方式也通过手动方式进行评估。最后,我们对两个开源大型语言模型——Aya-Expanse (8B)和Gemma-3(12B)——进行了微调,并在多语言OmniGEC语料库上取得了段落级多语言GEC的最新(SOTA)成果。数据集收集和表现最佳的模型可在Hugging Face上获得。

查看OmniGEC

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们