MBZUAI 本次发布的数据集 MOMENTS (Multimodal Mental States), MOMENTS(多模态心理状态)是一个全面的基准测试,旨在通过现实、叙事丰富的场景来评估多模态大型语言模型(LLM)的ToM能力。数据集包括超过2344个多选题,涵盖了七个不同的ToM类别。基准测试具有长的视频上下文窗口和现实的社会互动,为深入了解角色的心理状态提供了更深入的见解。虽然视觉模态通常可以提高模型性能,但当前系统仍然难以有效地整合它,这突出了对AI在多模态理解人类行为方面的进一步研究的需求。
查看MOMENTS (Multimodal Mental States)
README 内容:
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)