five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

挪威国家图书馆AI实验室发布千万级多语言翻译数据集 破解机器翻译“翻译腔”训练痛点

五号数据雷达开源数据市场2026-05-26 04:3710
挪威国家图书馆(Nasjonalbiblioteket)AI实验室于2026年5月25日在Hugging Face首发千万级多语言机器翻译数据集nb-asr-mt-filtered,该数据集采用反向合成数据规则构建,经过多层质量过滤,可广泛应用于机器翻译训练、翻译腔感知研究等场景,填补了北欧小语种高质量平行语料的市场缺口。

当前全球大语言模型研发快速推进,机器翻译作为跨语言信息交互的核心基础设施,其译文流畅度、母语化程度一直是行业核心痛点,尤其是丹麦语、瑞典语、挪威语等北欧小语种,由于可用高质量平行语料规模有限,相关翻译模型的输出普遍存在翻译腔重、本地化不足等问题。作为北欧地区核心的数字人文与语言AI研究机构,挪威国家图书馆(Nasjonalbiblioteket)AI实验室依托馆藏海量多语言资源,长期深耕北欧语言的语音识别、机器翻译技术研发,本次发布的nb-asr-mt-filtered正是其NB-ASR项目的核心配套语料成果,最初为项目内部训练使用,目前仍处于持续迭代的活跃开发阶段。

该数据集的核心创新点在于采用了反向合成数据的构建逻辑:不同于传统平行语料直接收集X语言到Y语言的翻译结果作为训练样本,nb-asr-mt-filtered先将X语言的母语文本翻译为合成版Y语言文本,再将合成Y语言作为输入源、X语言母语作为监督目标进行训练,从训练规则层面降低翻译腔对最终模型效果的影响,监督目标始终为原生母语表达,仅源端可能保留翻译腔伪影。

为了避免合成数据常见的源目标不匹配、幻觉、截断等问题,该数据集在基础版本nb-asr-mt(仅完成基础非空校验、语种识别护栏校验)的基础上,额外应用了保守的多语言双语文本嵌入完整性过滤器,可有效移除明显的幻觉内容、截断伪影、解析错误和语种识别错误等低质量数据,同时最大程度保留语料覆盖范围。本次语料生成共调用了四大主流翻译大模型能力,包括谷歌推出的translategemma-4b-it、translategemma-12b-it,加泰罗尼亚超级计算中心研发的BSC-LT/salamandraTA-7b-instruct,以及阿里巴巴通义千问团队的Qwen/Qwen3.6-35B-A3B-FP8,在Olivia框架下完成全量翻译路线生成与回译校验。数据集最终按照(配置,源块ID)的规则进行拆分,采用95%训练集、2.5%验证集、2.5%测试集的通用比例划分,适配绝大多数机器翻译模型的训练需求。

数据集单条记录包含模型ID、版本信息、验证元数据、使用元数据、时间元数据、母语原始文本、枢轴翻译文本和回译文本共8类字段,可满足研究人员对语料来源溯源、质量分层的需求。除本次发布的filtered版本外,实验室还同步推出了更严格的nb-asr-mt-gold版本,后者在母语原文与回译文之间增加了同语言嵌入相似性校验,优先保障高置信度的有用语料覆盖,而非严格的字符串完全匹配,适合对语料质量要求极高的训练场景。

目前nb-asr-mt-filtered总规模达10,814,726行,覆盖12种语言对配置,全部为英语、丹麦语、瑞典语、挪威语四大语言的双向翻译组合,其中仅英语到挪威语的语料就达1,811,476行,可充分支撑北欧区域跨语言翻译模型的训练需求,不同语言对的具体规模可参考数据集README中的详细表格。从应用价值来看,该数据集目前已明确可用于机器翻译训练、翻译腔感知数据构建两大方向,训练时使用source_text作为输入、target_text作为母语监督目标即可直接使用。除此之外,行业研究人员还可基于该数据集开展翻译腔识别算法研发、跨语言大模型本地化微调、北欧数字人文馆藏批量翻译等多类研究,其反向合成+多层过滤的语料构建思路,也可为全球其他小语种翻译数据集的研发提供参考范式。

查看nb-asr-mt-filtered

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们