加利福尼亚大学洛杉矶分校发布 MetaVQA 数据集, 应用在自动驾驶、视觉语言模型领域

首页 / 开源数据市场 / 正文

五号数据雷达开源数据市场2025-01-18 07:4135

MetaVQA 是加利福尼亚大学洛杉矶分校发布的数据集,于 2025-01-16 首发在 arXiv 应用于自动驾驶、视觉语言模型领域

加利福尼亚大学洛杉矶分校本次发布的数据集 MetaVQA, MetaVQA数据集由加利福尼亚大学洛杉矶分校的研究团队创建，旨在评估和增强视觉语言模型（VLMs）在空间推理和场景理解方面的能力。该数据集结合了nuScenes和Waymo数据集中的真实世界交通场景，利用Set-of-Mark提示和自上而下的视图注释，自动生成大量的问题-答案对。数据集包含丰富的对象中心和上下文丰富的指令，确保了对多样化交通场景的覆盖。通过MetaDrive模拟器，数据集还生成了安全关键的驾驶场景，用于闭环模拟评估。MetaVQA数据集的应用领域包括自动驾驶和仓库机器人等，旨在解决VLMs在安全关键模拟中的空间推理和场景理解问题，显著提升了模型的安全意识和决策能力。

查看MetaVQA

关于加利福尼亚大学洛杉矶分校 , 加利福尼亚大学洛杉矶分校（UCLA）是美国著名的公立研究型大学，位于洛杉矶市。它是加利福尼亚大学系统中的第二古老的分校，以其卓越的学术研究和教学质量而闻名。UCLA在多个学科领域，如工程、医学、法律和艺术等，均享有极高的声誉。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库，涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

近期热门