five

五号数据雷达

资产融资
资源入表
产品交易
知识产权
首页 / 开源数据市场 / 正文
加利福尼亚大学洛杉矶分校 发布 MetaVQA 数据集, 应用在 自动驾驶、视觉语言模型 领域
五号数据雷达开源数据市场2025-01-18 07:4135
MetaVQA 是 加利福尼亚大学洛杉矶分校 发布的数据集,于 2025-01-16 首发在 arXiv 应用于 自动驾驶、视觉语言模型 领域

加利福尼亚大学洛杉矶分校 本次发布的数据集 MetaVQA, MetaVQA数据集由加利福尼亚大学洛杉矶分校的研究团队创建,旨在评估和增强视觉语言模型(VLMs)在空间推理和场景理解方面的能力。该数据集结合了nuScenes和Waymo数据集中的真实世界交通场景,利用Set-of-Mark提示和自上而下的视图注释,自动生成大量的问题-答案对。数据集包含丰富的对象中心和上下文丰富的指令,确保了对多样化交通场景的覆盖。通过MetaDrive模拟器,数据集还生成了安全关键的驾驶场景,用于闭环模拟评估。MetaVQA数据集的应用领域包括自动驾驶和仓库机器人等,旨在解决VLMs在安全关键模拟中的空间推理和场景理解问题,显著提升了模型的安全意识和决策能力。

查看MetaVQA

关于 加利福尼亚大学洛杉矶分校 , 加利福尼亚大学洛杉矶分校(UCLA)是美国著名的公立研究型大学,位于洛杉矶市。它是加利福尼亚大学系统中的第二古老的分校,以其卓越的学术研究和教学质量而闻名。UCLA在多个学科领域,如工程、医学、法律和艺术等,均享有极高的声誉。

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们