清华大学本次发布的数据集PerceptionComp,PerceptionComp是由清华大学、华盛顿大学和南洋理工大学联合构建的高复杂度视频理解评测基准,包含279个场景复杂视频和1114道五选一问题。该数据集通过SAM2实例计数和光流幅度筛选高密度物体、强运动及频繁场景转换的视频,每个问题需10-20分钟人工标注,确保答案需组合多个时空分离的视觉证据。其创新性在于强制模型进行感知驱动的长程推理,涵盖语义识别、视觉对应、时空推理等复合技能,主要应用于评估多模态语言模型在重复感知和证据整合方面的能力,为突破现有视频理解瓶颈提供诊断工具。
关于清华大学,清华大学是中国北京市的一所顶尖综合性研究型大学,成立于1911年,以工程、计算机科学、经济管理等学科著称,是中国最著名的高等学府之一。
关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。





_1769672084863.jpg)