中国科学院自动化研究所 本次发布的数据集 Video-CoT, Video-CoT数据集是一个基于思维链(CoT)方法论的综合性数据集,旨在提高视频内容的时空理解能力。该数据集包含192,000个细粒度的时空问答对和23,000个高质量的CoT标注样本,为评估视频理解中的时空理解提供了坚实的基础。此外,我们还提供了一个全面的基准测试,用于评估这些任务,每个任务都包含750个图像和定制的评估指标。我们的广泛实验表明,当前的视觉语言模型(VLMs)在实现令人满意的性能方面面临着重大挑战,突出了有效时空理解的复杂性。
关于 中国科学院自动化研究所 , 中国科学院自动化研究所是中国科学院直属科研机构,主要从事自动化科学理论与技术的应用基础研究和高技术创新研究。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)