five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【五号雷达-数据快讯】InternVid - 高质量大规模视频-文本数据集

五号雷达开源数据市场2024-06-09 23:0044
InternVid受到学术界广泛关注,已应用于多模态世界模型LWM,并被Google、Stable AI的视频生成工作使用或参考,相关论文在2024年国际表征学习大会(ICLR 2024)获Spotlight。

上海人工智能实验室联合南京大学、中国科学院等机构联合发布高质量大规模视频-文本数据集InternVid,旨在应对日益扩大的视频-语言建模规模需求,推动大模型视频理解和生成能力进一步提升。作为当前全球最大的视频-文本公开数据集之一,InternVid包含超700万条配有详细文本描述的视频,涵盖16种场景和约6000个动作描述,总时长接近76万小时,并具备高视频-文本对应性,数据集中的视频与文本描述高度匹配,为视频-文本语义匹配、视频-文本检索、视频-文本生成等多模态学习任务训练提供“视频词典”。InternVid受到学术界广泛关注,已应用于多模态世界模型LWM,并被Google、Stable AI的视频生成工作使用或参考,相关论文在2024年国际表征学习大会(ICLR 2024)获Spotlight。

详情请参见五号雷达:https://www.5radar.com/dataset?id=870057b76047b507144b03ffa6d7524b

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们