浙江大学 本次发布的数据集 TriSense-2M, TriSense-2M是一个大规模的多模态数据集,包含超过200万条注释。每个视频实例都包括在视觉、音频和语音模态上基于事件进行注释,并且具有灵活的组合和模态的自然缺失。数据集支持各种场景,并包括平均时长为905秒的长视频,这显著长于现有数据集中的视频,从而能够实现更深层次和更真实的时序理解。重要的是,查询使用高质量的母语语言,与时间注释对齐,并且跨越不同的模态配置,以促进鲁棒的多模态学习。
关于 浙江大学 , 浙江大学是中国一所历史悠久、学科全面、科研实力雄厚的顶尖综合性大学。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)