five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

格拉茨工业大学 发布 STSBench 数据集, 应用在 自动驾驶、视觉语言模型评估 领域

五号数据雷达开源数据市场2025-06-10 06:3338
STSBench 是 格拉茨工业大学 发布的数据集,于 2025-06-07 首发在 arXiv 应用于 自动驾驶、视觉语言模型评估 领域

格拉茨工业大学 本次发布的数据集 STSBench, STSBench是一个基于场景的框架,旨在评估自动驾驶中视觉语言模型(VLMs)的整体理解能力。该框架使用地面真实标注自动从任何数据集中挖掘预定义的交通场景,提供一个直观的用户界面以便高效的人工验证,并为模型评估生成多项选择题。应用于NuScenes数据集,我们展示了STSnu,这是第一个基于全面3D感知评估VLMs时空推理能力的基准。现有基准通常针对单一视角的图像或视频中的现成或微调VLMs,并专注于语义任务,如对象识别、密集标注、风险评估或场景理解。相比之下,STSnu评估驾驶专家VLMs进行端到端驾驶,操作多视图相机或激光雷达的视频。它特别评估它们对自身车辆行为和交通参与者之间复杂交互的推理能力,这是自动驾驶车辆的关键能力。基准功能43个多样化的场景,跨越多个视图和帧,导致971个人工验证的多项选择题。彻底的评估揭示了现有模型在复杂环境中推理基本交通动态的关键缺陷。这些发现突出了显式建模时空推理的架构进步的迫切需要。通过解决时空评估中的核心差距,STSBench使更健壮和可解释的VLMs的开发成为可能。

查看STSBench

Dataset card 内容: 

 

Files and versions 内容: 

 

关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们