首页 / 开源数据市场 / 正文

亚马逊发布 TextrolMix 数据集, 应用在语音分离、目标语音提取领域

五号数据雷达开源数据市场2025-01-18 07:40108

TextrolMix 是亚马逊发布的数据集,于 2025-01-16 首发在 arXiv 应用于语音分离、目标语音提取领域

亚马逊本次发布的数据集 TextrolMix, TextrolMix是由亚马逊Prime Video团队创建的一个用于目标语音提取（TSE）的数据集，包含12万条双人语音混合数据，总计157小时。每条数据包含目标语音的自然语言描述和参考音频线索，支持灵活的文本引导TSE模型。数据集通过增强TextrolSpeech数据集生成，每条语音混合数据包含六种属性：说话者身份、情感、音高、性别、口音和语速。数据集的设计使得模型能够基于细微的属性差异提取目标语音，而无需依赖显著不同的整体说话风格。TextrolMix数据集的应用领域主要集中在语音分离和目标语音提取，旨在解决传统TSE方法在缺乏明确说话者身份线索时的局限性。

查看TextrolMix

关于亚马逊 , 亚马逊是一家全球领先的电子商务和云计算公司，成立于1994年，总部位于美国华盛顿州西雅图。亚马逊提供广泛的产品和服务，包括在线零售、云计算服务、数字流媒体和人工智能技术等。其Prime Video服务是亚马逊提供的视频流媒体服务，提供电影、电视节目和原创内容。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

社区讨论

近期热门

亚马逊 发布 TextrolMix 数据集, 应用在 语音分离、目标语音提取 领域

社区讨论

亚马逊发布 TextrolMix 数据集, 应用在语音分离、目标语音提取领域