奥地利技术研究所 本次发布的数据集 音频-视觉拥挤场景分类数据集, 音频-视觉拥挤场景分类数据集是由奥地利技术研究所收集的一个包含341个视频的数据集,总时长近29.06小时,涵盖五种真实生活中的拥挤场景:‘暴乱’、‘嘈杂街道’、‘烟花事件’、‘音乐事件’和‘体育氛围’。数据集通过从YouTube收集的野外场景视频构建,每个视频被分割成10秒的片段,并标注相应的场景类别。该数据集旨在通过深度学习框架分析音频和视觉输入,以提高对特定拥挤场景的分类准确性,特别是在预测和检测潜在的暴乱事件方面具有重要应用。
关于 奥地利技术研究所 , 奥地利技术研究所(AIT Austrian Institute of Technology)是奥地利最大的非大学研究机构,专注于应用研究和创新技术开发,涵盖能源、健康、交通和安全等多个领域。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)