北京大学 本次发布的数据集 GenS-Video150K, GenS-Video150K是一个大规模合成的视频问答数据集,包含丰富的视频问题相关的帧注释。该数据集由北京大学、Salesforce Research和独立研究者共同构建,提供了大约20%的帧被标记为相关,并为每个相关帧分配了1到5级的细化置信度评分。数据集通过一个四阶段的管道生成,利用GPT-4o进行密集的视频帧字幕标注、构建视频问答对、扩展相关帧集合以及为相关帧打分。该数据集旨在帮助训练视频问答助手,更好地理解长时间视频内容。
关于 北京大学 , 北京大学是中国著名的高等学府,成立于1898年,位于中国首都北京,是中国最早的国立综合性大学,也是中国最高学府之一。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)