five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

NVIDIA发布PhysicalAI-VANTAGE-Bench-Subset基准数据集 填补固定摄像头视觉AI评估标准空白

五号数据雷达开源数据市场2026-05-08 05:2211
NVIDIA于2026年5月7日在HuggingFace首发公开基准数据集PhysicalAI-VANTAGE-Bench-Subset,作为行业首个面向固定基础设施摄像头视频理解能力的评估基准,覆盖仓库、智慧城市、智能空间三大核心场景,可为六类时空视觉AI模型的性能校验提供标准化测试依据。

当前,随着智慧城市、智慧物流、智慧办公等领域的数字化转型提速,固定布设的基础设施摄像头已经成为城市治理、企业运营场景中最核心的感知数据入口。但长期以来,针对固定摄像头采集视频的时空视觉理解任务,全球AI产业始终缺乏统一的公开评估基准,不同厂商研发的视觉AI模型性能校验标准差异较大,跨场景落地的适配成本居高不下,也制约了相关AI应用的规模化普及。

2026年5月7日,NVIDIA正式在HuggingFace平台发布公开基准数据集PhysicalAI-VANTAGE-Bench-Subset,作为行业首个专为评估固定基础设施摄像头捕获视频的视觉理解能力设计的公开基准,该数据集的落地填补了这一领域的标准空白。

该数据集覆盖仓库、智能城市/智能交通系统(ITS)、智能空间三大高价值现实场景,共涉及六大类核心时空视频理解任务,包括视频问答(VQA)、时间定位、密集视频字幕生成、事件验证、空间定位和时空跟踪,所有数据仅用于评估目的。从落地场景来看,上述能力可广泛应用于仓库智能巡检、交通事件快速检索、无人值守空间智能告警、跨摄像头目标轨迹追踪等多个领域,为相关AI模型的研发提供统一的测试标尺:例如视频问答能力可支撑仓储管理人员快速查询特定时段的货物搬运记录,时间定位能力可帮助交通部门快速锁定交通事故的完整发生时段,时空跟踪能力可实现智能园区内的异常人员动线预警等。

为保障数据集的真实性、泛用性与标注精度,本次数据集的采集与标注均采用混合模式。数据采集端覆盖三类来源:一是供应商提供的实拍素材,包含仓库和智能空间环境下的GoPro拍摄内容;二是合成生成内容,来自DriveSim生成的碰撞场景与多摄像头模拟场景;三是公开抓取的公开数据源,包含Dubuque高速公路的ITS运营镜头。标注环节则结合了人类标注、合成标注与伪标注三类方式:其中VQA、密集视频字幕和时间定位的标注主要由专业标注人员完成,空间定位标签(2D/3D边界框、指代表达)结合了人工标注与“检测+SAM进行空间指向”的伪标注流程,事件验证标签则全部由人工整理校验,确保标注结果的准确率。

本次发布的数据集共包含312个独特视频,总存储容量达42GB,覆盖的细分任务量化数据包括:VQA(296个视频,1257个条目)、事件验证(163个视频,163个条目)、密集视频字幕生成(104个视频,717个条目)、时间定位(221个视频,1280个条目)、2D对象定位(3个视频,27404个边界框,628帧)、2D指代表达(1503张图像,3276个表达)、2D空间指向(1005个条目,5018张图像)和时空跟踪(200个剪辑,1600帧)。数据集采用通用的mp4视频与jpg图像格式,目录结构按照任务类型划分,研究人员与厂商可直接调用适配。评估环节统一通过HuggingFace上的官方评估服务器进行,开发者提交预测结果后,服务器将自动计算性能指标并更新公开排行榜,方便全行业横向对比模型性能。

行业人士指出,本次NVIDIA推出的专用基准数据集,不仅解决了固定摄像头视觉AI领域长期缺乏统一评估标准的痛点,还将进一步降低相关模型的研发与校验成本,推动智能交通、智慧物流、智能空间等场景的AI应用规模化落地,同时也为感知类数据要素的标准化加工、共享流通提供了可参考的实践样本,对时空视觉AI产业的规范化发展具有重要意义。

查看PhysicalAI-VANTAGE-Bench-Subset

Dataset card内容:

Files and versions内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们