InternVid全集|多模态学习数据集|视频理解数据集

InternVid全集

OpenDataLab2026-05-31 更新2024-06-08 收录1750

多模态学习

视频理解

资源简介：

InternVid是一个大规模的以视频为中心的多模态数据集，可用于学习强大且可迁移的视频-文本表示，用于多模态理解和生成。InternVid数据集包含超过700万个视频，总时长近76万小时，共有2.34亿个视频片段，伴随着总计41亿个单词的详细描述。我们的核心贡献在于开发了一种可扩展的方法，利用语言模型自主构建高质量的视频-文本数据集，并展示了其在大规模学习视频-语言表示方面的有效性。具体而言，我们采用了多尺度方法来生成与视频相关的描述。此外，我们引入了基于ViT-L的视频-文本表示学习模型ViCLIP。通过对InternVid进行对比学习，该模型展示了领先的零样本动作识别和竞争性的视频检索性能。除了基本的视频理解任务，如识别和检索，我们的数据集和模型还具有广泛的应用。它们特别有助于生成交错的视频-文本数据，用于学习视频为中心的对话系统，并推进视频到文本和文本到视频的生成研究。这些提出的资源为对多模态视频理解和生成感兴趣的研究人员和实践者提供了一个工具。

原始地址：

立即探测

提供机构：

shepshep

创建时间：

2024-06-03