EPIC-KITCHENS 本次发布的数据集 EPIC-SOUNDS, 该数据集是一个大规模的音频标注集,涵盖了第一人称视角视频中音频流内的时间范围和类别标签。它包含了78,366个被归类为44个不同类别的可听事件片段。该数据集不仅包括已分类的片段,还包含了未分类的片段,特别注重区分仅基于音频的标签,并评估基于音频的识别模型。作为一个大型数据集,它拥有78,366个片段,旨在支持音频识别和基于声音的动作检测任务。
关于 EPIC-KITCHENS , -
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)