首页 / 开源数据市场 / 正文

复旦大学联合美团龙猫团队发布WBENCH基准数据集填补交互式视频世界模型多轮评估空白

五号数据雷达开源数据市场2026-05-27 05:2110

2026年5月25日，复旦大学联合美团·龙猫团队在arXiv首发综合性多轮交互视频世界模型评估基准数据集WBENCH，为交互式视频生成、具身智能等前沿领域的模型能力评测提供了统一系统性框架，将有效推动相关技术的标准化迭代与落地。

近年来，随着世界模型、交互式视频生成、具身智能等AI前沿方向的快速发展，行业对多轮交互场景下的模型能力评估需求日益迫切——此前主流的视频模型评估基准多聚焦单轮生成效果，缺乏覆盖多场景、多视角、多交互类型的统一评估体系，不同机构的技术成果难以横向对比，成为制约相关技术落地的重要瓶颈。2026年5月25日，复旦大学联合美团·龙猫团队在arXiv正式发布的综合性多轮交互视频世界模型评估基准数据集WBENCH，正是瞄准这一行业痛点推出的公共基础数据资源。

该数据集包含289个精心设计的测试案例，共计1058个交互轮次，覆盖了自然、城市、幻想等多种开放域场景，以及写实、卡通等多种渲染风格，并同时支持第一人称和第三人称视角。其构建过程通过定义包含场景、风格、视角和主体的世界设置，并组合导航、主体动作、事件编辑和视角切换四类交互序列来完成，最大程度还原了真实应用中多轮交互的复杂需求。

不同于传统单轮视频评估仅关注生成画质的逻辑，WBENCH旨在为交互式视频世界模型提供一个统一的、系统性的评估框架，可全面衡量模型在视频质量、设置遵循、交互遵循、一致性和物理合规性等五个维度的核心能力。从行业应用来看，该数据集可广泛应用于多轮交互式视频生成模型的能力评测，帮助研发团队精准定位模型在多轮指令响应、场景一致性保持等方面的短板；也可为具身智能机器人的虚拟环境训练提供评测标尺，验证机器人在连续交互过程中的环境理解、决策执行能力；此外还可支撑数字孪生场景交互系统、元宇宙内容生成工具、开放世界游戏内容生成引擎等产品的能力测试。

作为AI领域重要的公共基础数据资源，这类垂直场景的基准测试数据集是推动技术标准化迭代、降低行业研发成本的核心底座，WBENCH的发布也将为全球交互式视频世界模型领域的技术交流、成果对比提供统一的参照系，助力相关技术从实验室走向商用落地。

查看WBENCH

详情页内容：

社区讨论

近期热门

复旦大学联合美团龙猫团队发布WBENCH基准数据集 填补交互式视频世界模型多轮评估空白

详情页内容：

社区讨论

复旦大学联合美团龙猫团队发布WBENCH基准数据集填补交互式视频世界模型多轮评估空白