five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

挪威国家图书馆AI实验室开源优化版挪威语TTS数据集 上线HuggingFace降低小语种语音研发门槛

五号数据雷达开源数据市场2026-05-04 02:4416
挪威国家图书馆旗下AI实验室Nasjonalbiblioteket AI Lab于2026年5月3日在开源AI社区HuggingFace首发nst_tts_dataset_trimmed数据集,该数据集针对原始挪威语TTS训练数据的首尾静音问题完成定向优化,可有效降低语音合成模型训练成本、提升输出语音自然度,为北欧小语种语音交互技术研发提供合规、高质量的核心数据支撑。

在全球语音交互技术快速落地的当下,中文、英语等高资源语种的语音训练数据供给已相对充足,但挪威语等北欧小语种的高质量开源训练资源始终存在较大缺口,成为制约区域数字化服务、无障碍设施、跨境智能交互等场景落地的核心瓶颈。作为挪威国家级公共文化与数字资源研究机构,Nasjonalbiblioteket(挪威国家图书馆)AI Lab长期聚焦北欧语言数字资产的整理与开放,此前已围绕挪威语语音、文本资源发布多组开源数据集,为北欧语言AI研发提供了核心公共数据支撑,此次推出的优化版本正是针对原有TTS数据集的行业共性反馈完成的定向升级。

Nasjonalbiblioteket AI Lab本次发布的数据集nst_tts_dataset_trimmed,是对原有`NbAiLab/nst_tts_dataset`完成边缘静音修剪后的优化版本,专门面向挪威语文本转语音(TTS)系统训练场景打造。该数据集包含`metadata.jsonl`标注文件和修剪后的`.wav`音频文件,修剪操作仅针对每个音频片段的首尾冗余静音部分,完整保留了音频内部的自然语流停顿。据官方披露的参数,本次优化共修剪了`5363`个音频文件,总计移除静音时长达到`12302.27`秒,平均每个片段移除`2.193`秒冗余内容,单个片段最高移除静音时长达到`5.154`秒。其修剪策略经过多轮测试调整:采用`20.0 ms`帧大小实现对语音边界的精准识别,设置`120.0 ms`最小检测语音跨度避免截断有效发音,同时分别预留`80.0 ms`前导语音填充和`120.0 ms`后导语音填充,在移除无效静音的同时最大程度保留口语表达的自然节奏。该版本的核心价值在于为TTS系统训练提供低冗余度的音频数据,既能够减少模型训练阶段的算力浪费、压缩训练周期,也能避免合成语音出现首尾空白、断句异常等问题,直接提升最终输出语音的流畅度与自然度。

从应用方向来看,该开源数据集可广泛应用于多个挪威语语音交互场景的技术研发:包括面向本土市场的智能客服、智能家居语音助手开发,公共服务领域的自动语音播报、政务服务语音交互系统搭建,无障碍场景的挪威语屏幕阅读器、有声读物自动生成工具研发,以及跨境服务中的挪威语多语种交互模块训练等。对于全球从事小语种语音AI研究的机构和开发者而言,这一经过预处理的高质量数据集可直接接入训练流程,大幅降低数据预处理环节的人力与时间成本。

此次数据集的开放也是公共文化机构释放数字资源价值、赋能数据要素市场建设的典型实践。当前全球多语种AI训练数据的稀缺性持续凸显,由国家级公共机构主导的开源数据供给,既能够保障训练数据的合规性与标注质量,也能有效降低中小研发团队的技术创新门槛,为区域数字经济的均衡发展提供基础支撑。

查看nst_tts_dataset_trimmed

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们