亚马逊 本次发布的数据集 TextrolMix, TextrolMix是由亚马逊Prime Video团队创建的一个用于目标语音提取(TSE)的数据集,包含12万条双人语音混合数据,总计157小时。每条数据包含目标语音的自然语言描述和参考音频线索,支持灵活的文本引导TSE模型。数据集通过增强TextrolSpeech数据集生成,每条语音混合数据包含六种属性:说话者身份、情感、音高、性别、口音和语速。数据集的设计使得模型能够基于细微的属性差异提取目标语音,而无需依赖显著不同的整体说话风格。TextrolMix数据集的应用领域主要集中在语音分离和目标语音提取,旨在解决传统TSE方法在缺乏明确说话者身份线索时的局限性。
关于 亚马逊 , 亚马逊是一家全球领先的电子商务和云计算公司,成立于1994年,总部位于美国华盛顿州西雅图。亚马逊提供广泛的产品和服务,包括在线零售、云计算服务、数字流媒体和人工智能技术等。其Prime Video服务是亚马逊提供的视频流媒体服务,提供电影、电视节目和原创内容。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)