谷歌DeepMind 本次发布的数据集 LibriSpeech-Long, LibriSpeech-Long数据集是由谷歌DeepMind和韩国科学技术院集成视觉与语言实验室共同创建的长语音处理与生成基准数据集。该数据集基于LibriSpeech原始数据集的开发集和测试集,通过重新处理生成了4分钟时长的音频片段,旨在为长语音生成任务提供参考基准。数据集的内容包括长语音片段的音频和对应的转录文本,适用于长语音生成、语音合成等任务。该数据集的创建过程包括对原始音频进行重新分割和标注,确保每个片段的时长和语义连贯性。LibriSpeech-Long数据集的应用领域主要集中在语音生成模型的评估和改进,特别是针对长语音生成任务中的语义连贯性和语音质量进行量化分析。
关于 谷歌DeepMind , DeepMind是一家英国的人工智能公司,成立于2010年,后被谷歌收购。该公司专注于开发能够模拟人类学习和决策过程的算法,并在多个领域如游戏、医疗和能源等方面取得了显著成就。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)