2025年12月23日,World Labs 创始人兼 CEO、斯坦福大学终身讲席教授李飞飞等多位研究者发布了 QuantiPhy 评测基准。这是首个用于定量评估视觉语言模型(VLM)物理推理能力的数据集。
QuantiPhy 的官方验证集约占完整基准的 4%,包含 159 条“视频—问题—答案”(QA)样本。每个样本要求模型在给定一段短视频和一个自然语言问题后,输出一个连续数值结果,例如物体的大小、速度或加速度等物理量。
数据集地址: QuantiPhy



2025年12月23日,World Labs 创始人兼 CEO、斯坦福大学终身讲席教授李飞飞等多位研究者发布了 QuantiPhy 评测基准。这是首个用于定量评估视觉语言模型(VLM)物理推理能力的数据集。
QuantiPhy 的官方验证集约占完整基准的 4%,包含 159 条“视频—问题—答案”(QA)样本。每个样本要求模型在给定一段短视频和一个自然语言问题后,输出一个连续数值结果,例如物体的大小、速度或加速度等物理量。
数据集地址: QuantiPhy

