香港理工大学 本次发布的数据集 VideoITG-40K, VideoITG-40K是一个大规模的视频理解数据集,由香港理工大学、南京大学、英伟达和哈佛大学的研究人员构建。该数据集包含40,000个视频和500,000个指令引导的时间定位标注,旨在解决长视频理解中的复杂场景问题。VideoITG通过指令引导的帧采样,能够有效处理多时态线索,并针对不同任务需求定制帧选择策略。VidThinker是一个自动化数据标注流程,通过指令引导的剪辑字幕、检索和帧定位,确保了高质量的标注。VideoITG-40K数据集的创建过程借鉴了人类的推理过程,采用粗到精的策略,并使用GPT-4o进行详细剪辑描述,随后通过“Needle-In-A-Haystack”方法进行指令引导的剪辑检索。数据集的分类指令分为四类,分别对应视频问答中的不同推理需求。VideoITG-40K数据集在规模和质量上都显著超越了之前的时间定位数据集,为视频理解模型的训练提供了丰富的资源。
关于 香港理工大学 , 香港理工大学是一所位于中国香港的公立研究型大学,在教育、科研、创新等方面具有领先地位。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)