Adobe Research 本次发布的数据集 LARGE-SCALE DATASET WITH DIVERSE AUDIO EVENTS, 本研究提出了一种名为FLAM的音频语言模型,旨在进行帧级别的开放词汇语音事件检测。为了实现帧级别的监督,研究人员构建了一个大规模的数据集,其中包含多样化的音频事件、LLM生成的字幕和模拟数据。该数据集通过从文本标记的声学事件中合成10秒的音频混合物来创建,从而自动重新标记事件边界,从而形成了一个包含一百万样本的多样化、开放词汇的语音事件检测示例数据集。该数据集的创建旨在解决现有语音事件检测模型在处理开放词汇事件时的局限性,并提高音频内容搜索和事件检测等应用中的定位能力。
查看LARGE-SCALE DATASET WITH DIVERSE AUDIO EVENTS
关于 Adobe Research , Adobe Research 是 Adobe 公司的研究部门,致力于数字媒体、图形、多媒体和相关的技术研究和开发。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)