艾伦人工智能研究所本次发布的数据集Molmo2 Data,Molmo2数据集是由艾伦人工智能研究所和华盛顿大学联合创建的大规模开放视频-语言多模态数据集,旨在推动视频理解和多图像任务的研究。该数据集包含7个视频数据集和2个多图像数据集,总计约520k个实例,涵盖密集视频描述、长视频问答、对象跟踪和视频指向等任务。数据来源包括人工标注和合成生成,通过创新的多阶段标注流程确保数据的多样性和细节丰富性。该数据集主要应用于视频搜索、机器人技术、辅助技术等领域,旨在解决当前开放视频-语言模型在细粒度理解和时空定位能力上的不足。
README内容:
关于艾伦人工智能研究所,艾伦人工智能研究所(Allen Institute for AI)是由微软联合创始人保罗·艾伦于2014年创立的一个非营利性研究机构,专注于人工智能领域的基础研究和技术开发。
关于arXiv,arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)