IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

标签:记忆策略

共 1 篇相关文章

IT 累计浏览 3

LongCat 开源 VitaBench 2.0:长期动态智能体基准新标杆

美团Longcat团队推出的VitaBench 2.0是首个面向长期动态用户建模的智能体评测基准,旨在评估大语言模型在真实生活场景中理解用户偏好和主动交互的能力。该基准包含56名虚拟用户、819个复杂任务和超2000个动态偏好,平均时间跨度达1580天,模拟用户行为的演进与漂移。其核心设计围绕三维解构:搭建人生副本以构建多年互动轨迹、引入时间标尺强调持续理解、设立记忆擂台对比智能体记忆与RAG记忆。实验显示,现有模型在长期任务中性能随时间下降,记忆策略并非总是有效;开启思考模式不必然提升个性化任务表现;AI普遍缺乏主动提问意愿,导致在信息不足时决策失误;即使直接提供用户偏好,模型应用能力仍不足,揭示了个性化作为智能体发展的关键瓶颈。VitaBench 2.0通过量化数据为开发者提供优化方向,推动智能体评测从单任务向长期陪伴演进,助力AI从工具进化为有温度的伙伴。该基准已全面开源,促进研究关注智能体的记忆和主动性。