five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

香港理工大学 发布 VideoITG-40K 数据集, 应用在 视频理解、视频问答 领域

五号数据雷达开源数据市场2025-07-19 07:3852
VideoITG-40K 是 香港理工大学 发布的数据集,于 2025-07-18 首发在 arXiv 应用于 视频理解、视频问答 领域

香港理工大学 本次发布的数据集 VideoITG-40K, VideoITG-40K是一个大规模的视频理解数据集,由香港理工大学、南京大学、英伟达和哈佛大学的研究人员构建。该数据集包含40,000个视频和500,000个指令引导的时间定位标注,旨在解决长视频理解中的复杂场景问题。VideoITG通过指令引导的帧采样,能够有效处理多时态线索,并针对不同任务需求定制帧选择策略。VidThinker是一个自动化数据标注流程,通过指令引导的剪辑字幕、检索和帧定位,确保了高质量的标注。VideoITG-40K数据集的创建过程借鉴了人类的推理过程,采用粗到精的策略,并使用GPT-4o进行详细剪辑描述,随后通过“Needle-In-A-Haystack”方法进行指令引导的剪辑检索。数据集的分类指令分为四类,分别对应视频问答中的不同推理需求。VideoITG-40K数据集在规模和质量上都显著超越了之前的时间定位数据集,为视频理解模型的训练提供了丰富的资源。

查看VideoITG-40K

关于 香港理工大学 , 香港理工大学是一所位于中国香港的公立研究型大学,在教育、科研、创新等方面具有领先地位。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们