five
五号数据雷达
产品上架
产权登记
知识产权
公共数据
首页 / 开源数据市场 / 正文

复旦大学联合美团龙猫团队发布WBENCH基准数据集 填补交互式视频世界模型多轮评估空白

五号数据雷达开源数据市场2026-05-27 05:2110
2026年5月25日,复旦大学联合美团·龙猫团队在arXiv首发综合性多轮交互视频世界模型评估基准数据集WBENCH,为交互式视频生成、具身智能等前沿领域的模型能力评测提供了统一系统性框架,将有效推动相关技术的标准化迭代与落地。

近年来,随着世界模型、交互式视频生成、具身智能等AI前沿方向的快速发展,行业对多轮交互场景下的模型能力评估需求日益迫切——此前主流的视频模型评估基准多聚焦单轮生成效果,缺乏覆盖多场景、多视角、多交互类型的统一评估体系,不同机构的技术成果难以横向对比,成为制约相关技术落地的重要瓶颈。2026年5月25日,复旦大学联合美团·龙猫团队在arXiv正式发布的综合性多轮交互视频世界模型评估基准数据集WBENCH,正是瞄准这一行业痛点推出的公共基础数据资源。

该数据集包含289个精心设计的测试案例,共计1058个交互轮次,覆盖了自然、城市、幻想等多种开放域场景,以及写实、卡通等多种渲染风格,并同时支持第一人称和第三人称视角。其构建过程通过定义包含场景、风格、视角和主体的世界设置,并组合导航、主体动作、事件编辑和视角切换四类交互序列来完成,最大程度还原了真实应用中多轮交互的复杂需求。

不同于传统单轮视频评估仅关注生成画质的逻辑,WBENCH旨在为交互式视频世界模型提供一个统一的、系统性的评估框架,可全面衡量模型在视频质量、设置遵循、交互遵循、一致性和物理合规性等五个维度的核心能力。从行业应用来看,该数据集可广泛应用于多轮交互式视频生成模型的能力评测,帮助研发团队精准定位模型在多轮指令响应、场景一致性保持等方面的短板;也可为具身智能机器人的虚拟环境训练提供评测标尺,验证机器人在连续交互过程中的环境理解、决策执行能力;此外还可支撑数字孪生场景交互系统、元宇宙内容生成工具、开放世界游戏内容生成引擎等产品的能力测试。

作为AI领域重要的公共基础数据资源,这类垂直场景的基准测试数据集是推动技术标准化迭代、降低行业研发成本的核心底座,WBENCH的发布也将为全球交互式视频世界模型领域的技术交流、成果对比提供统一的参照系,助力相关技术从实验室走向商用落地。

查看WBENCH

详情页内容:

数据合作广告位

社区讨论

近期热门
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

二维码
关注我们