标签：智能体

共 3 篇相关文章

IT 累计浏览 151

LongCat 开源 VitaBench 2.0：长期动态智能体基准新标杆

美团Longcat团队推出的VitaBench 2.0是首个面向长期动态用户建模的智能体评测基准，旨在评估大语言模型在真实生活场景中理解用户偏好和主动交互的能力。该基准包含56名虚拟用户、819个复杂任务和超2000个动态偏好，平均时间跨度达1580天，模拟用户行为的演进与漂移。其核心设计围绕三维解构：搭建人生副本以构建多年互动轨迹、引入时间标尺强调持续理解、设立记忆擂台对比智能体记忆与RAG记忆。实验显示，现有模型在长期任务中性能随时间下降，记忆策略并非总是有效；开启思考模式不必然提升个性化任务表现；AI普遍缺乏主动提问意愿，导致在信息不足时决策失误；即使直接提供用户偏好，模型应用能力仍不足，揭示了个性化作为智能体发展的关键瓶颈。VitaBench 2.0通过量化数据为开发者提供优化方向，推动智能体评测从单任务向长期陪伴演进，助力AI从工具进化为有温度的伙伴。该基准已全面开源，促进研究关注智能体的记忆和主动性。

IT 累计浏览 160

从”内容治理”到”行为治理”：中国智能体治理框架深度解析与绿盟科技实践

中国人工智能产业在2026年正经历从内容治理向行为治理的范式转换，传统基于生成内容的监管模式已不足以应对智能体复杂行为风险。本文深度解析了中国智能体治理框架的核心架构，该框架以行为可解释性、可控性和安全性为支柱，整合了实时监控、风险评估和动态干预机制。框架采用分层设计，包括行为采集层、分析引擎层和决策执行层，支持多模态数据融合与联邦学习，确保治理的精准性和隐私保护。绿盟科技作为实践案例，展示了如何将框架应用于网络安全场景，通过智能体行为建模实现威胁预测与自动化响应，提升防御效率。文章还探讨了框架在伦理合规、标准制定和技术挑战方面的进展，强调跨学科协作的重要性，为行业提供了可落地的治理范式参考。

IT 累计浏览 103

解码Google Gemini 2.5：推理、多模态与智能体能力的革命性突破

Google DeepMind发布的Gemini 2.5 Pro标志着大模型进入新阶段，其核心突破在于引入了动态计算分配的“Thinking”机制，通过在响应前进行数万次内部迭代推理，显著提升了复杂问题的解决能力，例如在AIME数学竞赛基准上准确率大幅跃升。架构上基于优化的稀疏混合专家模型，计算效率提升显著。在多模态理解方面，Gemini 2.5 Pro实现了对长达3小时视频的高效解析，并支持将视频内容转化为交互式应用。其跨模态处理能力在音视频理解基准上超越竞品，尤其在时空推理任务中优势突出。作为智能体平台，模型展现出强大的代码生成与长程规划能力，其在软件工程基准上的性能飙升，并能完成如长时间游戏通关等复杂自主决策任务。同时，报告指出了当前面临的核心挑战：传统评估基准快速饱和，而模型能力正以指数级增长，这迫使评估范式向自我进化的方式转变。安全方面则引入了自动化红队测试等创新防御机制。 Gemini 2.5的进化表明，AI正朝着计算资源智能化分配、多模态架构深度统一以及由智能体自主进行能力评估的方向快速发展，其能力边界已开始超越人类传统认知框架。