five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

亚马逊 发布 TextrolMix 数据集, 应用在 语音分离、目标语音提取 领域

五号数据雷达开源数据市场2025-01-18 07:40108
TextrolMix 是 亚马逊 发布的数据集,于 2025-01-16 首发在 arXiv 应用于 语音分离、目标语音提取 领域

亚马逊 本次发布的数据集 TextrolMix, TextrolMix是由亚马逊Prime Video团队创建的一个用于目标语音提取(TSE)的数据集,包含12万条双人语音混合数据,总计157小时。每条数据包含目标语音的自然语言描述和参考音频线索,支持灵活的文本引导TSE模型。数据集通过增强TextrolSpeech数据集生成,每条语音混合数据包含六种属性:说话者身份、情感、音高、性别、口音和语速。数据集的设计使得模型能够基于细微的属性差异提取目标语音,而无需依赖显著不同的整体说话风格。TextrolMix数据集的应用领域主要集中在语音分离和目标语音提取,旨在解决传统TSE方法在缺乏明确说话者身份线索时的局限性。

查看TextrolMix

关于 亚马逊 , 亚马逊是一家全球领先的电子商务和云计算公司,成立于1994年,总部位于美国华盛顿州西雅图。亚马逊提供广泛的产品和服务,包括在线零售、云计算服务、数字流媒体和人工智能技术等。其Prime Video服务是亚马逊提供的视频流媒体服务,提供电影、电视节目和原创内容。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们