首页 / 开源数据市场 / 正文

LAION发布DramaBox合成人声爆发数据集覆盖197类非言语发声赋能语音AI多场景研发

五号数据雷达开源数据市场2026-05-30 07:064

全球开源AI数据集标杆机构LAION eV于2026年5月29日在HuggingFace首发合成人声爆发数据集synthetic_vocal_burts_dramabox（DramaBox），该数据集覆盖全年龄段、全性别的197类非言语发声场景，将为非言语音频分类、语音情感合成等领域的技术研发提供核心数据支撑。

随着多模态大模型与智能交互产业的快速落地，语音交互技术正从“语义识别”向“情绪感知、场景理解”升级，而笑声、呜咽、喘息、呐喊等人类非言语发声，作为传递情绪、反应生理/心理状态的核心载体，长期面临开源数据集覆盖类型少、样本分布不均、标注颗粒度粗的行业痛点，制约了语音情感计算、人机交互等领域的技术迭代。曾打造Stable Diffusion核心训练数据集的全球知名开源AI数据集机构LAION eV，于2026年5月29日在HuggingFace平台正式发布synthetic_vocal_burts_dramabox（简称DramaBox）合成人声爆发音频数据集，为这一领域的研发提供了高质量的基础数据供给。

本次发布的DramaBox是专门面向人类非言语发声研究打造的分类学资源，共包含2000个音频样本，总时长约4.2小时（14992秒），平均每个样本时长7.5秒，时长覆盖3.0至12.0秒区间，所有音频均为44.1 kHz采样率的无损WAV格式。样本在性别维度完全平衡，包含1000个女性样本、1000个男性样本，同时细分为16个年龄/性别组（每组125个样本），覆盖从幼儿到衰老期的全生命周期阶段，可支撑不同人群的非言语发声特征研究。数据集核心覆盖197种独特的人声爆发类型，基于LAION Voice-Acting-Pipeline分类法扩展了NSFW发声、运动/原始声音、歌唱、哼唱、口哨等类别，同时提供包含180个条目的安全内容（SFW）子集，覆盖腹笑、轻笑、呜咽、喘息、恼怒哼声、战斗呐喊、摇篮曲哼唱等典型场景。每个样本由.wav音频文件和带详细标注的.json元数据文件构成，元数据包含样本ID、生成提示词、时长、性别、年龄组、人声爆发关键词及描述等信息，数据集采用WebDataset tar分片格式存储，可支持流式加载和分布式训练，所有样本均通过DramaBox TTS模型在8块NVIDIA A100 GPU上合成生成。

从应用价值来看，DramaBox可广泛应用于音频分类、文本到音频生成、语音情感计算、人机交互等领域的模型训练与技术研发：在智能座舱场景中，基于该数据集训练的识别模型可捕捉驾驶员的惊呼、喘息等应激反应，触发主动安全预警；在虚拟数字人、服务机器人领域，可支撑模型生成更拟人的非言语情绪表达，大幅提升交互自然度；在内容创作领域，可助力文本转音频模型生成丰富的情绪音效，降低有声剧、动画配音的制作成本；在内容治理场景中，可辅助平台识别音频中的违规发声类型，提升内容审核效率。该数据集采用知识共享署名4.0国际许可协议（CC BY 4.0）发布，对科研及商业应用均较为友好，可有效降低全行业的研发门槛。

查看synthetic_vocal_burts_dramabox

Dataset card内容：

Files and versions内容：

社区讨论

近期热门

LAION发布DramaBox合成人声爆发数据集 覆盖197类非言语发声 赋能语音AI多场景研发

Dataset card内容：

Files and versions内容：

社区讨论

LAION发布DramaBox合成人声爆发数据集覆盖197类非言语发声赋能语音AI多场景研发