IT技术博客大学习 共学习 共进步

标签:推理

共 2 篇相关文章

IT 累计浏览 7

解码Google Gemini 2.5:推理、多模态与智能体能力的革命性突破

Google DeepMind发布的Gemini 2.5 Pro标志着大模型进入新阶段,其核心突破在于引入了动态计算分配的“Thinking”机制,通过在响应前进行数万次内部迭代推理,显著提升了复杂问题的解决能力,例如在AIME数学竞赛基准上准确率大幅跃升。架构上基于优化的稀疏混合专家模型,计算效率提升显著。 在多模态理解方面,Gemini 2.5 Pro实现了对长达3小时视频的高效解析,并支持将视频内容转化为交互式应用。其跨模态处理能力在音视频理解基准上超越竞品,尤其在时空推理任务中优势突出。 作为智能体平台,模型展现出强大的代码生成与长程规划能力,其在软件工程基准上的性能飙升,并能完成如长时间游戏通关等复杂自主决策任务。同时,报告指出了当前面临的核心挑战:传统评估基准快速饱和,而模型能力正以指数级增长,这迫使评估范式向自我进化的方式转变。安全方面则引入了自动化红队测试等创新防御机制。 Gemini 2.5的进化表明,AI正朝着计算资源智能化分配、多模态架构深度统一以及由智能体自主进行能力评估的方向快速发展,其能力边界已开始超越人类传统认知框架。

IT 累计浏览 9

OpenAI gpt-oss-120b & gpt-oss-20b 模型技术报告英中对照版

OpenAI发布的gpt-oss-120b与gpt-oss-20b是首批强调强推理与工具调用能力的开源模型。性能上,120b版本在数学、科学及代码基准上逼近闭源o4-mini,20b版本以少6倍的参数超越o3-mini,验证了MoE架构的有效性;其代码能力尤为突出,Codeforces Elo刷新同尺寸开源纪录。安全方面,模型采用deliberative alignment框架,基础拒答能力达标;OpenAI罕见公开了针对生物与网络安全的红队微调实验,表明即使经强化训练仍可控,并邀请第三方复核以设立可信风险锚点,同时强调开发者需负责叠加内容审核等安全层。生态上,通过Apache 2.0许可与高效量化(4.25bit),大幅降低了本地部署门槛(120b需80GB显存,20b仅需16GB),并配套了实现代理体验的工具链。该系列最大价值在于示范了“开放权重+开放评估+可控风险”的新范式,为需要本地私有化、深度定制或追求成本效益的开发者提供了新选择,并将开源大模型的安全验证基线向前推进。