five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

韩国科学技术院 发布 WavCaps, LibriTTS-R, AudioSet-speech 数据集, 应用在 语音生成、环境感知音频 领域

五号数据雷达开源数据市场2024-12-31 11:4534
WavCaps, LibriTTS-R, AudioSet-speech 是 韩国科学技术院 发布的数据集,于 2024-12-26 首发在 arXiv 应用于 语音生成、环境感知音频 领域

韩国科学技术院 本次发布的数据集 WavCaps, LibriTTS-R, AudioSet-speech, VoiceDiT研究团队构建了一个多模态生成模型,用于从文本和视觉提示中生成环境感知的语音和音频。数据集包括WavCaps、LibriTTS-R和AudioSet-speech,分别用于预训练和微调。WavCaps包含340K条非语音数据,LibriTTS-R是一个多说话者语料库,AudioSet-speech是一个真实世界的语音数据集,经过处理后包含400K条数据。数据集的创建过程包括将干净语音与噪声数据混合,并应用房间脉冲响应滤波器以模拟各种环境条件。该数据集的应用领域主要集中在文本到语音和文本到音频的生成,旨在解决在嘈杂条件下生成环境感知语音的挑战。

查看WavCaps, LibriTTS-R, AudioSet-speech

关于 韩国科学技术院 , 韩国科学技术院是韩国最高科学研究机构,致力于推动科技创新和培养科研人才。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们