韩国科学技术院 本次发布的数据集 WavCaps, LibriTTS-R, AudioSet-speech, VoiceDiT研究团队构建了一个多模态生成模型,用于从文本和视觉提示中生成环境感知的语音和音频。数据集包括WavCaps、LibriTTS-R和AudioSet-speech,分别用于预训练和微调。WavCaps包含340K条非语音数据,LibriTTS-R是一个多说话者语料库,AudioSet-speech是一个真实世界的语音数据集,经过处理后包含400K条数据。数据集的创建过程包括将干净语音与噪声数据混合,并应用房间脉冲响应滤波器以模拟各种环境条件。该数据集的应用领域主要集中在文本到语音和文本到音频的生成,旨在解决在嘈杂条件下生成环境感知语音的挑战。
查看WavCaps, LibriTTS-R, AudioSet-speech
关于 韩国科学技术院 , 韩国科学技术院是韩国最高科学研究机构,致力于推动科技创新和培养科研人才。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)