当前生成式AI视频产业进入快速落地期,从内容创作、广告营销到数字孪生、AR交互等场景的应用需求持续爆发,但行业长期面临评估体系不完善的痛点:现有主流评估指标大多聚焦于画面清晰度、文本-内容匹配度等表层维度,无法对生成内容的三维物理合理性(如尺度-深度对齐、运动一致性、结构刚性等)进行量化判断,导致大量生成视频出现“物体穿墙”“人物悬浮”“运动轨迹违背重力规则”等明显逻辑bug,制约了生成式视频在工业级、专业级场景的落地应用。
针对这一行业痛点,清华大学IEI实验室联合相关机构构建的PDI-Dataset几何一致性评估数据集于2026年5月15日正式在arXiv首发,旨在为生成视频模型的物理合理性评估提供标准化基准。据介绍,该数据集共包含183个高质量视频,基于28个覆盖多元场景的文本提示生成,涵盖纵向收敛、动态跟踪、生物运动、曲线运动和部分遮挡五大核心物理场景,数据来源同时覆盖真实世界视频及6种国内外前沿开源、闭源视频生成模型,具备极强的场景代表性和行业通用性。在数据生产环节,团队通过精心设计的差异化文本提示引导模型生成对应内容,再借助图像分割与点跟踪技术提取视频中的物体中心观测数据,最终通过单目重建技术将二维观测数据升级为三维世界坐标,为三维物理规则的量化评估提供了精准的数据基础。
从应用价值来看,PDI-Dataset首先可直接应用于生成式视频质量评估领域,为各类文生视频、图生视频模型的迭代优化提供物理合理性维度的量化评估标准,解决了原有评估方法无法校验三维物理规律的核心痛点,为开发具备空间感知能力的下一代生成系统提供关键诊断信号。除此之外,该数据集还可拓展应用于三维物理一致性验证相关的多元场景:比如AR内容生成中虚拟物体与真实场景的尺度适配校验、数字孪生场景中的动态仿真逻辑验证、自动驾驶虚拟测试数据的物理规则合理性筛查等,均可以依托该数据集完成标准化评估,为相关领域的技术迭代提供核心数据支撑。作为垂直领域的高质量专用数据集,PDI-Dataset的发布也为我国AI基础数据资产体系的完善提供了重要补充,对推动生成式AI产业从“可用”向“可靠”升级具有积极意义。





_1769672084863.jpg)