首页 / 开源数据市场 / 正文

清华大学发布PerceptionComp数据集,应用在视频理解、多模态推理领域

五号数据雷达开源数据市场2026-03-31 05:1138

PerceptionComp是清华大学发布的数据集,于2026-03-28首发在arXiv应用于视频理解、多模态推理领域

清华大学本次发布的数据集PerceptionComp,PerceptionComp是由清华大学、华盛顿大学和南洋理工大学联合构建的高复杂度视频理解评测基准，包含279个场景复杂视频和1114道五选一问题。该数据集通过SAM2实例计数和光流幅度筛选高密度物体、强运动及频繁场景转换的视频，每个问题需10-20分钟人工标注，确保答案需组合多个时空分离的视觉证据。其创新性在于强制模型进行感知驱动的长程推理，涵盖语义识别、视觉对应、时空推理等复合技能，主要应用于评估多模态语言模型在重复感知和证据整合方面的能力，为突破现有视频理解瓶颈提供诊断工具。

查看PerceptionComp

关于清华大学,清华大学是中国北京市的一所顶尖综合性研究型大学，成立于1911年，以工程、计算机科学、经济管理等学科著称，是中国最著名的高等学府之一。

关于arXiv,全球最大的预印本学术论文数据库，涵盖物理、数学、计算机科学等多个学科领域。

社区讨论

近期热门