北京航空航天大学 本次发布的数据集 EgoGazeVQA, EgoGazeVQA数据集是首个以第一人称视角视频为基础,并结合眼动追踪数据,用于评估大型多模态语言模型(MLLMs)在理解用户意图方面的性能的基准数据集。该数据集包含了从Ego4D、EgoExo4D和EGTEA Gaze+三个主要的第一人称视频数据集中提取的900个视频片段,以及由MLLMs生成的1757个基于眼动和文本描述的问答对。每个问答对都经过了人工审核,以确保其相关性和准确性。EgoGazeVQA数据集旨在帮助MLLMs更好地理解用户在日常生活场景中的意图和活动,从而提升人工智能助手的个性化和主动性。
关于 北京航空航天大学 , 北京航空航天大学(Beihang University)成立于1952年,是中国一所著名的工科学府,位于北京市。该校在航空、航天和材料科学等领域具有很高的声誉,其计算机科学与工程学院是中国计算机科学领域的重要研究基地之一。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)