专题：模型评测 -- IT技术博客大学习 -- 共学习共进步！

IT 累计浏览 24

从月球漫步到赛博都市，WBench 测出了世界模型的边界

WBench由美团LongCat团队开发，是首个针对交互式视频世界模型的系统性多轮评测基准。该基准包含289个测试案例和1058个交互轮次，覆盖多种世界定义和指令集，如未来城市和油画场景，支持第一人称和第三人称视角。通过测试Kling 3.0、HY-World 1.5等20个前沿模型，发现无全能模型：文本驱动模型擅长场景理解，专用世界模型在交互控制上突出。导航能力与视频画质等其他维度相关性低，依赖独立的空间状态表示；多轮交互中导航能力平均分下降33点，表明位姿误差累积是结构性缺陷。开源模型如HY-World 1.5在导航能力上表现优异。WBench基于世界定义、指令集、统一交互接口和评测套件四大要素构建，实现从被动生成到主动交互的范式转移，其自动评分与人类偏好高度一致，Spearman相关系数达0.94，验证了可靠性。评测维度包括视频质量、设定遵循度等，为世界模型研究提供标准化工具。

标签：模型评测

从月球漫步到赛博都市，WBench 测出了世界模型的边界