加利福尼亚大学洛杉矶分校 本次发布的数据集 MetaVQA, MetaVQA数据集由加利福尼亚大学洛杉矶分校的研究团队创建,旨在评估和增强视觉语言模型(VLMs)在空间推理和场景理解方面的能力。该数据集结合了nuScenes和Waymo数据集中的真实世界交通场景,利用Set-of-Mark提示和自上而下的视图注释,自动生成大量的问题-答案对。数据集包含丰富的对象中心和上下文丰富的指令,确保了对多样化交通场景的覆盖。通过MetaDrive模拟器,数据集还生成了安全关键的驾驶场景,用于闭环模拟评估。MetaVQA数据集的应用领域包括自动驾驶和仓库机器人等,旨在解决VLMs在安全关键模拟中的空间推理和场景理解问题,显著提升了模型的安全意识和决策能力。
关于 加利福尼亚大学洛杉矶分校 , 加利福尼亚大学洛杉矶分校(UCLA)是美国著名的公立研究型大学,位于洛杉矶市。它是加利福尼亚大学系统中的第二古老的分校,以其卓越的学术研究和教学质量而闻名。UCLA在多个学科领域,如工程、医学、法律和艺术等,均享有极高的声誉。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。




_1769672084863.jpg)