AMD 本次发布的数据集 VideoMarathon, VideoMarathon是一个大规模的时长视频指令跟随数据集,包含约9700小时的长时间视频,视频时长从3分钟到1小时不等。该数据集包含3.3M个高质量的QA对,涵盖了六个基本主题:时间性、空间性、对象、动作、场景和事件。与现有的视频指令数据集相比,VideoMarathon显著地扩展了训练视频的时长,支持22个多样化的任务,需要短期的和长期的视频理解。数据集的创建过程包括使用Qwen2VL-7B和DeepSeek-V3进行分层视频字幕生成,然后基于这些字幕合成QA对。VideoMarathon旨在解决现有视频语言模型在处理长时间视频时的长期依赖学习问题,支持更广泛的视频理解任务。
关于 AMD , AMD(Advanced Micro Devices)是一家全球知名的半导体公司,主要从事中央处理器(CPU)和图形处理器(GPU)的设计与销售,为计算机、游戏和嵌入式市场提供高性能硬件产品。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)