five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

挪威国家图书馆AI Lab发布三语平行数据集maalfrid_parallel 填补挪英机器翻译小语种语料缺口

五号数据雷达开源数据市场2026-05-01 03:5511
挪威国家图书馆(Nasjonalbiblioteket)AI实验室于2026年4月30日在HuggingFace平台首发maalfrid_parallel三语平行数据集,覆盖挪威语两大官方变体及英语三类语料,合规支持多语言语料库建设、挪威语-英语机器翻译等领域研发,填补了小语种高质量平行语料的公开供给缺口。

随着多语言大模型研发进入精细化落地阶段,小语种高质量平行语料的稀缺性已成为制约区域AI服务普惠发展的核心瓶颈之一。挪威作为北欧数字经济领先经济体,同时推行布克莫尔(Bokmål)、尼诺斯克(Nynorsk)两种挪威语官方变体,长期以来两类变体之间、变体与英语之间的公开可商用对齐语料供给不足,既影响本土公共服务的多语言适配效率,也限制了挪威与全球英语市场的数字内容互联互通。在此背景下,挪威国家图书馆(Nasjonalbiblioteket)AI实验室于2026年4月30日在HuggingFace平台正式首发maalfrid_parallel(Målfrid平行)数据集,为上述行业痛点提供了标准化数据解决方案。

Nasjonalbiblioteket AI Lab本次发布的maalfrid_parallel数据集,覆盖挪威语布克莫尔、挪威语尼诺斯克和英语三类语言的平行对齐数据,共设置三个核心语言对:nob_nno(挪威语布克莫尔与尼诺斯克)、nob_eng(挪威语布克莫尔与英语)和nno_eng(挪威语尼诺斯克与英语)。为适配AI模型研发的通用需求,每个语言对均拆分了训练集、验证集和测试集三个子集,且各子集的源域无重叠,可有效避免模型训练过程中的数据泄露问题,保障后续研发成果的可信度。该数据集原始语料均来源于Målfrid项目爬取的.no后缀挪威政府公开网站内容,该项目本身定位为通过公开互联网内容监测挪威全国语言使用情况,语料的权威性、规范性均有明确保障;对齐环节采用NbAiLab/nb-sbert-v2-base模型及sentence-transformers库实现,其中英语-挪威语平行数据的最小余弦相似度阈值设为0.80,两种挪威语变体之间的平行数据阈值设为0.95,进一步保障了语料对齐的精准度。许可层面,该数据集采用挪威开放政府数据许可(NLOD)2.0版本,合规支持商业与非商业场景的免费使用。

从落地价值来看,该数据集可广泛应用于多个领域:一是可直接用于挪威语两大官方变体的互译模型训练,为挪威本土政府公告、公共服务、教育内容的多版本自动转换提供数据支撑,降低公共服务的语言适配成本;二是可支撑挪威语-英语双向机器翻译模型的优化迭代,助力跨境电商、北欧旅游、北欧学术文献翻译等垂直场景的AI服务能力升级;三是可作为核心资源纳入多语言平行语料库建设,为全球小语种语言资源治理、语言政策研究提供标准化的参考样本。

作为公共部门开放高质量语言数据资源的典型案例,本次数据集的发布既填补了挪威语相关平行语料的公开供给缺口,也为全球公共数据赋能AI产业发展提供了可借鉴的路径:通过对公共领域公开内容的标准化清洗、对齐、分级,形成可复用的基础数据资源,能够有效降低全社会的AI研发门槛,进一步推动语言类数据要素的市场化流通与价值释放。

查看maalfrid_parallel

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们