Ego4D 本次发布的数据集 EgoClip, 该数据集名为EgoClip,是一个包含3.8百万个从Ego4D精心挑选的第一人称视角视频文本对的预训练数据集,覆盖了人类日常活动的广泛多样性。EgoClip包含了2.9千小时的视频,以及3.85百万个叙述,涵盖了来自129个不同场景的2927小时视频内容。其规模达到了3.8百万个视频文本对,旨在进行视频与语言的预训练任务。
README 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)