首页 / 开源数据市场 / 正文

韩国科学技术院发布 WavCaps, LibriTTS-R, AudioSet-speech 数据集, 应用在语音生成、环境感知音频领域

五号数据雷达开源数据市场2024-12-31 11:4534

WavCaps, LibriTTS-R, AudioSet-speech 是韩国科学技术院发布的数据集,于 2024-12-26 首发在 arXiv 应用于语音生成、环境感知音频领域

韩国科学技术院本次发布的数据集 WavCaps, LibriTTS-R, AudioSet-speech, VoiceDiT研究团队构建了一个多模态生成模型，用于从文本和视觉提示中生成环境感知的语音和音频。数据集包括WavCaps、LibriTTS-R和AudioSet-speech，分别用于预训练和微调。WavCaps包含340K条非语音数据，LibriTTS-R是一个多说话者语料库，AudioSet-speech是一个真实世界的语音数据集，经过处理后包含400K条数据。数据集的创建过程包括将干净语音与噪声数据混合，并应用房间脉冲响应滤波器以模拟各种环境条件。该数据集的应用领域主要集中在文本到语音和文本到音频的生成，旨在解决在嘈杂条件下生成环境感知语音的挑战。

查看WavCaps, LibriTTS-R, AudioSet-speech

关于韩国科学技术院 , 韩国科学技术院是韩国最高科学研究机构，致力于推动科技创新和培养科研人才。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

韩国科学技术院 发布 WavCaps, LibriTTS-R, AudioSet-speech 数据集, 应用在 语音生成、环境感知音频 领域

社区讨论

韩国科学技术院发布 WavCaps, LibriTTS-R, AudioSet-speech 数据集, 应用在语音生成、环境感知音频领域