five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

Mohamed Bin Zayed University of Artificial Intelligence 发布 VIDEOMOLMO 数据集, 应用在 视频理解、视觉定位 领域

五号数据雷达开源数据市场2025-06-07 07:0419
VIDEOMOLMO 是 Mohamed Bin Zayed University of Artificial Intelligence 发布的数据集,于 2025-06-06 首发在 arXiv 应用于 视频理解、视觉定位 领域

Mohamed Bin Zayed University of Artificial Intelligence 本次发布的数据集 VIDEOMOLMO, VIDEOMOLMO数据集是一套包含72,000个视频-字幕对和100,000个物体点的综合数据集,旨在支持基于文本描述的精细时空指向。该数据集由多个来源的视频数据构建而成,如Refer-YTVOS、Refer-DAVIS、MeViS等,通过半自动化的标注流程确保了高质量和可扩展性。数据集用于训练VIDEOMOLMO模型,该模型能够根据自然语言查询生成整个视频序列中目标物体的点级预测,并保持时间一致性。VIDEOMOLMO数据集的发布填补了当前时空指向数据集的空白,为视觉定位和推理任务提供了宝贵资源。

查看VIDEOMOLMO

关于 Mohamed Bin Zayed University of Artificial Intelligence , Mohamed Bin Zayed University of Artificial Intelligence 是世界上第一所专注于人工智能的研究生大学,提供多种AI领域的硕士和博士学位课程。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们