IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

标签:模型评测

共 1 篇相关文章

IT 累计浏览 24

从月球漫步到赛博都市,WBench 测出了世界模型的边界

WBench由美团LongCat团队开发,是首个针对交互式视频世界模型的系统性多轮评测基准。该基准包含289个测试案例和1058个交互轮次,覆盖多种世界定义和指令集,如未来城市和油画场景,支持第一人称和第三人称视角。通过测试Kling 3.0、HY-World 1.5等20个前沿模型,发现无全能模型:文本驱动模型擅长场景理解,专用世界模型在交互控制上突出。导航能力与视频画质等其他维度相关性低,依赖独立的空间状态表示;多轮交互中导航能力平均分下降33点,表明位姿误差累积是结构性缺陷。开源模型如HY-World 1.5在导航能力上表现优异。WBench基于世界定义、指令集、统一交互接口和评测套件四大要素构建,实现从被动生成到主动交互的范式转移,其自动评分与人类偏好高度一致,Spearman相关系数达0.94,验证了可靠性。评测维度包括视频质量、设定遵循度等,为世界模型研究提供标准化工具。