Koç University 本次发布的数据集 PhysVidBench, PhysVidBench是一个用于评估文本到视频(T2V)模型中物理常识推理能力的基准数据集。该数据集由383个精心挑选的提示组成,重点关注工具使用、材料属性和程序交互,这些都是在物理合理性至关重要的领域。每个提示都用于生成视频,并通过一个三阶段的评估流程进行评估,包括从提示中制定基于物理的问题、用视觉语言模型对生成的视频进行字幕标注,以及使用语言模型仅根据字幕回答几个涉及物理的问题。PhysVidBench通过强调当前T2V评估中被忽视的可用性和工具介导行为,提供了一个结构化的、可解释的框架,用于评估生成视频模型中的物理常识。
关于 arXiv , arXiv 是一个免费分发服务和开放获取的学术文章档案库,涵盖了物理学、数学、计算机科学、定量生物学、定量金融、统计学、电气工程和系统科学以及经济学等领域。该网站上的材料并未经过 arXiv 的同行评审。





_1769672084863.jpg)