随着计算机视觉技术在自动驾驶、数字孪生、智慧安防等场景的落地深化,行业对移动对象分割技术的三维感知精度、时间粒度要求持续提升,此前主流的视频分割基准数据集普遍存在三维几何信息覆盖不足、运动标注时间粒度粗糙等痛点,成为制约实时运动分割技术迭代的核心瓶颈之一。2026年5月29日,牛津大学视觉几何组联合上海交通大学研发的GMOS-2K视频移动对象分割数据集正式在arXiv平台首发,为三维空间与时间细粒度运动分析提供了全新的基准资源。
GMOS-2K数据集共纳入2210个真实世界视频序列,覆盖4648个独立运动对象,原始数据来源于DAVIS17、YTVOS19、OVIS、MoCA-Mask、HOI4D五大业内公认的成熟视频对象分割基准,研发团队对原始素材进行了双重过滤清洗,剔除了模糊、动态范围异常等低质量片段,并为所有运动对象补充了时间细粒度标注,可精确标记每个对象在时间轴上的完整运动区间,标注质量远高于传统同类型数据集。
从落地价值来看,该数据集可广泛支撑多领域的技术研发:在自动驾驶场景中,基于该数据集训练的运动分割模型可更精准识别道路上的动态交通参与者、预判其运动轨迹,有效提升高阶自动驾驶系统的环境感知精度与决策安全性;在智慧安防场景中,细粒度的运动标注可帮助视频监控模型捕捉毫秒级的异常异动,降低公共安全场景、无人值守场景的预警误判率;在三维场景重建、数字孪生、AR/VR交互等领域,该数据集的三维运动标注能力可大幅提升动态对象的空间映射精度,为元宇宙相关场景的落地提供技术支撑。
作为AI训练体系中的核心基建,高质量基准数据集是计算机视觉技术迭代的核心前提,此次GMOS-2K的发布,有效填补了当前行业在三维空间+时间细粒度运动分析领域的基准资源空白,有望推动实时在线运动分割技术的研发落地,为下游多个千亿级数字化场景的技术升级提供核心数据支撑。





_1769672084863.jpg)