LY Corporation 本次发布的数据集 DnR-nonverbal, DnR-nonverbal是一个电影音频源分离(CASS)数据集,特别处理非言语声音。与传统CASS数据集只包含阅读风格的语音不同,该数据集在语音干中包含了笑声、尖叫等非言语声音。数据集包含从FSD50K和FreeSound收集的非言语声音片段,并经过基于规则和大型语言模型(LLM)的筛选。数据集创建过程包括收集非言语声音、筛选和处理混合过程。该数据集旨在解决当前CASS模型在处理实际电影音频中非言语声音提取的问题,并通过实验验证了其有效性。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)