five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

LAION发布DramaBox合成人声爆发数据集 覆盖197类非言语发声 赋能语音AI多场景研发

五号数据雷达开源数据市场2026-05-30 07:064
全球开源AI数据集标杆机构LAION eV于2026年5月29日在HuggingFace首发合成人声爆发数据集synthetic_vocal_burts_dramabox(DramaBox),该数据集覆盖全年龄段、全性别的197类非言语发声场景,将为非言语音频分类、语音情感合成等领域的技术研发提供核心数据支撑。

随着多模态大模型与智能交互产业的快速落地,语音交互技术正从“语义识别”向“情绪感知、场景理解”升级,而笑声、呜咽、喘息、呐喊等人类非言语发声,作为传递情绪、反应生理/心理状态的核心载体,长期面临开源数据集覆盖类型少、样本分布不均、标注颗粒度粗的行业痛点,制约了语音情感计算、人机交互等领域的技术迭代。曾打造Stable Diffusion核心训练数据集的全球知名开源AI数据集机构LAION eV,于2026年5月29日在HuggingFace平台正式发布synthetic_vocal_burts_dramabox(简称DramaBox)合成人声爆发音频数据集,为这一领域的研发提供了高质量的基础数据供给。

本次发布的DramaBox是专门面向人类非言语发声研究打造的分类学资源,共包含2000个音频样本,总时长约4.2小时(14992秒),平均每个样本时长7.5秒,时长覆盖3.0至12.0秒区间,所有音频均为44.1 kHz采样率的无损WAV格式。样本在性别维度完全平衡,包含1000个女性样本、1000个男性样本,同时细分为16个年龄/性别组(每组125个样本),覆盖从幼儿到衰老期的全生命周期阶段,可支撑不同人群的非言语发声特征研究。数据集核心覆盖197种独特的人声爆发类型,基于LAION Voice-Acting-Pipeline分类法扩展了NSFW发声、运动/原始声音、歌唱、哼唱、口哨等类别,同时提供包含180个条目的安全内容(SFW)子集,覆盖腹笑、轻笑、呜咽、喘息、恼怒哼声、战斗呐喊、摇篮曲哼唱等典型场景。每个样本由.wav音频文件和带详细标注的.json元数据文件构成,元数据包含样本ID、生成提示词、时长、性别、年龄组、人声爆发关键词及描述等信息,数据集采用WebDataset tar分片格式存储,可支持流式加载和分布式训练,所有样本均通过DramaBox TTS模型在8块NVIDIA A100 GPU上合成生成。

从应用价值来看,DramaBox可广泛应用于音频分类、文本到音频生成、语音情感计算、人机交互等领域的模型训练与技术研发:在智能座舱场景中,基于该数据集训练的识别模型可捕捉驾驶员的惊呼、喘息等应激反应,触发主动安全预警;在虚拟数字人、服务机器人领域,可支撑模型生成更拟人的非言语情绪表达,大幅提升交互自然度;在内容创作领域,可助力文本转音频模型生成丰富的情绪音效,降低有声剧、动画配音的制作成本;在内容治理场景中,可辅助平台识别音频中的违规发声类型,提升内容审核效率。该数据集采用知识共享署名4.0国际许可协议(CC BY 4.0)发布,对科研及商业应用均较为友好,可有效降低全行业的研发门槛。

查看synthetic_vocal_burts_dramabox

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们