five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

清华大学发布PerceptionComp数据集,应用在视频理解、多模态推理领域

五号数据雷达开源数据市场2026-03-31 05:1138
PerceptionComp是清华大学发布的数据集,于2026-03-28首发在arXiv应用于视频理解、多模态推理领域

清华大学本次发布的数据集PerceptionComp,PerceptionComp是由清华大学、华盛顿大学和南洋理工大学联合构建的高复杂度视频理解评测基准,包含279个场景复杂视频和1114道五选一问题。该数据集通过SAM2实例计数和光流幅度筛选高密度物体、强运动及频繁场景转换的视频,每个问题需10-20分钟人工标注,确保答案需组合多个时空分离的视觉证据。其创新性在于强制模型进行感知驱动的长程推理,涵盖语义识别、视觉对应、时空推理等复合技能,主要应用于评估多模态语言模型在重复感知和证据整合方面的能力,为突破现有视频理解瓶颈提供诊断工具。

查看PerceptionComp

关于清华大学,清华大学是中国北京市的一所顶尖综合性研究型大学,成立于1911年,以工程、计算机科学、经济管理等学科著称,是中国最著名的高等学府之一。

关于arXiv,全球最大的预印本学术论文数据库,涵盖物理、数学、计算机科学等多个学科领域。

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们