当前,生成式AI视频赛道正快速从“单次输入生成固定内容”的被动模式,向“支持用户实时控制、动态调整输出”的交互式方向迭代,世界模型作为实现高可控、高一致性视频生成的核心技术路径,已成为工业界与学术界共同攻坚的重点方向。但长期以来,全球范围内不同机构研发的交互式视频生成模型普遍采用私有测试集、自定义评估标准,不同模型的性能表现缺乏统一的比对标尺,不仅拉高了学术研究的重复投入成本,也制约了产业端对技术选型的判断效率。在此背景下,盛大AI研究院东京分院于2026年4月23日正式发布全新标准化评测数据集WorldMark,相关成果首发于预印本平台arXiv。
作为业内首个面向交互式图像转视频世界模型的标准化评测套件,WorldMark由盛大AI研究院东京主导构建,包含50张参考图像衍生的500个分层测试案例,覆盖第一/第三人称视角、写实/风格化等多元场景,可满足不同技术路线模型的测试需求。为解决不同模型控制指令不统一的核心痛点,该数据集特别设计了WASD动作词汇统一映射层,可实现六种异构模型的控制指令标准化转换,同时内置20-60秒难度分级的动作序列,可对模型的短/中/长视频生成能力进行分层测试。此外,数据集还集成了视觉质量、控制对齐和世界一致性三维评估体系,可从用户感知效果、指令响应精度、场景逻辑合理性三个维度对模型能力进行全面量化评估。据研发团队介绍,该数据集核心目标就是解决交互式视频生成模型因私有测试条件导致的跨模型可比性问题,为全球学术界、产业界提供统一、公平的基准测试平台。
从应用价值来看,WorldMark的落地将为多领域技术迭代提供核心支撑:在学术研究领域,科研团队可直接依托该数据集完成不同世界模型的横向性能比对,无需重复搭建测试环境、设计测试用例,可大幅降低研发成本,加速世界模型技术的迭代效率;在产业落地场景中,游戏行业可依托该数据集评测开放世界实时光影生成、玩家操作响应等能力,影视行业可用于验证交互式内容生成工具的控制精度,数字孪生、虚拟人实时驱动等场景也可通过该数据集的标准化评估体系,验证自研视频生成模型的落地适配性。作为AI技术迭代的核心基础设施,评测类数据集的规范化,也将进一步完善生成式AI领域的数据要素供给体系,推动交互式视频生成赛道的标准化发展,加速技术从实验室向产业端的落地渗透。





_1769672084863.jpg)