随着生成式AI技术的快速迭代,文生视频、生成世界模型等新兴方向逐步从实验室走向产业应用,但物理逻辑自洽性不足始终是制约其落地的核心瓶颈:此前主流生成模型输出的内容常出现违背物理常识的错误,且行业缺乏统一、可量化的物理推理能力评测基准,难以对模型的物理合理性输出进行标准化校验。在此背景下,东北大学联合相关机构正式发布PhyGround基准数据集,为该领域的评测工作填补了空白。
本次发布的PhyGround是专门针对生成世界模型物理推理能力评估打造的基准数据集,共包含250个经过多轮筛选的标准化提示词,每个提示词均匹配明确的预期物理结果,覆盖固体力学、流体动力学、光学三大核心物理领域的13条通用物理定律,所有数据均来自公开视频语料库的专业提取与多轮人工校验,确保数据集本身的科学性与严谨性。
为保障标注质量与评测可解释性,PhyGround的构建全程采用严格的质量管控流程:研发团队首先从多渠道收集覆盖不同物理场景的提示词,对提示词的预期物理结果进行标准化增强,随后引入社会科学实验设计原则开展大规模标注工作,最终共收集459名专业标注者提交的37400余个细粒度标签,形成了覆盖物理场景类型、错误类型、偏差程度等多维度的标注体系。
据研发团队介绍,PhyGround的核心价值在于解决当前生成视频物理合理性评估缺乏量化标准的行业痛点,其搭载的细粒度、可诊断评分框架,能够对生成模型的物理推理能力进行精准、可追溯的评测,而非传统的主观定性判断,可广泛应用于人工智能、计算机视觉、计算物理模拟等多个领域。从典型应用场景来看,文生视频厂商可借助该数据集快速定位模型在不同物理定律上的推理缺陷,针对性优化模型训练逻辑,提升生成内容的真实感与可信度;面向自动驾驶、数字孪生等领域的生成世界模型研发方,可将其作为基础评测套件,校验仿真场景中物体碰撞、流体运动、光影反射等效果的物理合理性,降低模拟结果与真实场景的偏差;科研机构也可将其作为通用基准,开展不同模型物理推理能力的横向对比研究,推动相关技术的底层突破。
作为AI评测类专用数据要素的典型代表,PhyGround的发布不仅完善了我国多模态AI的评测标准体系,也为跨学科基准数据集的构建提供了可参考的范式,对于推动生成式AI从娱乐类场景向工业、科研、城市治理等对内容可靠性要求更高的场景落地,具有重要的支撑作用。





_1769672084863.jpg)