five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

【遇见简讯】斯坦福大学李飞飞教授等发布首个面向视觉语言模型物理推理能力的定量评测基准

五号数据雷达开源数据市场2026-01-04 09:4467
2025年12月23日,World Labs 创始人兼 CEO、斯坦福大学终身讲席教授李飞飞等多位研究者发布了 QuantiPhy 评测基准。

2025年12月23日,World Labs 创始人兼 CEO、斯坦福大学终身讲席教授李飞飞等多位研究者发布了 QuantiPhy 评测基准。这是首个用于定量评估视觉语言模型(VLM)物理推理能力的数据集。

QuantiPhy 的官方验证集约占完整基准的 4%,包含 159 条“视频—问题—答案”(QA)样本。每个样本要求模型在给定一段短视频和一个自然语言问题后,输出一个连续数值结果,例如物体的大小、速度或加速度等物理量。

数据集地址: QuantiPhy

论文地址: QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models

简讯图片

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们