five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

雅典国立卡波迪斯特里亚大学发布AG-MG平行语料数据集 填补古典语言数字化与低资源翻译资源空白

五号数据雷达开源数据市场2026-05-20 05:4018
雅典国立卡波迪斯特里亚大学联合雅典研究与创新中心等机构于2026年5月18日在学术预印本平台arXiv首发AG-MG Parallel Corpus古希腊语-现代希腊语平行语料数据集,该数据集包含13万余对高质量对齐句子,可为低资源机器翻译、古希腊语数字化及人文计算领域提供核心基础资源支撑。

当前自然语言处理(NLP)技术在通用主流语言领域的应用已日趋成熟,但低资源语言、古典语言领域始终面临训练数据稀缺、语料对齐质量不足的发展瓶颈。尤其是作为西方文明核心文本载体的古希腊语,存世的大量古典文学、历史、哲学、宗教文献的数字化转译、语义挖掘工作,长期受限于专业对齐语料资源不足,难以实现规模化技术落地,只能依赖少量专业译者的人工处理,效率极低。2026年5月18日,雅典国立卡波迪斯特里亚大学联合雅典研究与创新中心等机构共同构建的AG-MG Parallel Corpus(古希腊语-现代希腊语平行语料库)正式首发于学术预印本平台arXiv,为相关领域研究填补了核心基础资源空白。

据公开技术文档显示,该数据集是面向古希腊语至现代希腊语机器翻译场景打造的专用高质量数据集,共包含132481个经过校准的高质量句子对,覆盖古典文学、历史文献、宗教圣经三大核心古典文本领域,总计收录约231万古希腊语词符与306万现代希腊语词符,可覆盖绝大多数常用古典古希腊语语义使用场景。为保障语料对齐准确率,研发团队融合了网络公开爬取的摘录级数据,采用基于LaBSE嵌入的VecAlign多阶段对齐流程,并创新性引入Gemini 2.5 Flash大语言模型辅助完成错误校验修正,最终实现了约95%的语料校准准确率,大幅降低了后续模型训练的噪声干扰,保障了训练产出模型的可用性。

从应用价值来看,该数据集的核心作用首先是突破低资源语言对的翻译技术瓶颈:基于该语料库训练的专用机器翻译模型,可直接为古典学研究者、历史学者、文博从业者提供便捷的古希腊语文献翻译工具,大幅降低古典文献的研究门槛。其次在古希腊语数字化领域,该语料库可支撑批量古典文献的自动语义标注、内容检索、结构化整理工作,加速传统人文研究的数字化转型。此外,该数据集也可为跨时代语言演化建模、人文计算等前沿研究提供高质量的训练数据支撑,其采用的“多阶段对齐+大语言模型辅助校验”的语料构建方案,也可为拉丁语、古希伯来语等其他古典语言的语料库建设提供可复用的技术路径参考。

作为人文领域垂直专业数据集的典型代表,本次AG-MG平行语料库的发布,也为全球数据要素市场中稀缺领域专业数据资源的构建提供了可参考的实践范式,对于推动数字人文领域基础设施建设、释放公共文化数据价值、探索数据要素在人文社科领域的应用场景均具有重要的行业意义。

查看AG-MG Parallel Corpus

详情页内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们