浙江大学本次发布的数据集World-R1纯文本数据集,World-R1纯文本数据集由微软研究院与浙江大学联合构建,专为增强视频生成模型的3D一致性而设计。该数据集包含多类别、多层级的相机运动控制文本指令,旨在通过强化学习优化模型对几何约束的隐式理解。数据通过合成生成,避免了真实3D数据的依赖,并采用去耦训练策略平衡刚体几何与动态场景的灵活性。其核心应用于文本到视频生成领域,解决现有模型在长序列和大视角运动中的几何失真问题,推动视频生成向可扩展的世界模拟演进。


浙江大学本次发布的数据集World-R1纯文本数据集,World-R1纯文本数据集由微软研究院与浙江大学联合构建,专为增强视频生成模型的3D一致性而设计。该数据集包含多类别、多层级的相机运动控制文本指令,旨在通过强化学习优化模型对几何约束的隐式理解。数据通过合成生成,避免了真实3D数据的依赖,并采用去耦训练策略平衡刚体几何与动态场景的灵活性。其核心应用于文本到视频生成领域,解决现有模型在长序列和大视角运动中的几何失真问题,推动视频生成向可扩展的世界模拟演进。
