IT技术博客大学习 共学习 共进步

标签:MoE

共 3 篇相关文章

IT 累计浏览 1

深度解析Kimi K2:当 1T 参数不再只是“大”,而是“能动手”的开放智能体

Kimi K2 是一款总参数达1.06T的混合专家模型,其核心突破在于从追求“答得好”转向“做得成”,旨在成为能实际执行任务的开放智能体。它采用稀疏激活架构,每个token仅激活32B参数,在保证强大能力的同时实现了高效推理。为训练如此庞大的模型,团队创新性地提出了MuonClip优化器,通过对Query和Key权重矩阵进行自适应缩放,从源头压制注意力分数的爆炸,确保了整个预训练过程的稳定性。 该模型的“动手能力”源于系统化的Agentic数据构建。通过模拟工具调用的域工厂、多智能体协作的竞技场以及可验证的自举强化学习,生成了千万级高质量的agent轨迹数据用于后训练。在基准测试中,Kimi K2表现出色,在SWE-bench Verified(51.8%)、LiveCodeBench等代码与推理任务上大幅领先同类开源模型,其工程优化深度甚至使其在无需多次采样或专门思考模块的情况下接近早期高级推理模型的水平。 Kimi K2已以Apache-2.0协议开源,支持通过vLLM等主流框架进行本地部署,仅需单张80GB显存显卡即可运行。尽管目前在复杂推理长度控制、工具误调用和单轮大型项目生成等方面仍存在局限,但其路线图明确了未来将引入多模态等能力。Kimi K2将庞大的参数、海量的训练数据与实用的智能体能力相结合,为开发者提供了一个强大且开放的本地化智能体基座。

IT 累计浏览 2

OpenAI gpt-oss-120b & gpt-oss-20b 模型技术报告英中对照版

OpenAI发布的gpt-oss-120b与gpt-oss-20b是首批强调强推理与工具调用能力的开源模型。性能上,120b版本在数学、科学及代码基准上逼近闭源o4-mini,20b版本以少6倍的参数超越o3-mini,验证了MoE架构的有效性;其代码能力尤为突出,Codeforces Elo刷新同尺寸开源纪录。安全方面,模型采用deliberative alignment框架,基础拒答能力达标;OpenAI罕见公开了针对生物与网络安全的红队微调实验,表明即使经强化训练仍可控,并邀请第三方复核以设立可信风险锚点,同时强调开发者需负责叠加内容审核等安全层。生态上,通过Apache 2.0许可与高效量化(4.25bit),大幅降低了本地部署门槛(120b需80GB显存,20b仅需16GB),并配套了实现代理体验的工具链。该系列最大价值在于示范了“开放权重+开放评估+可控风险”的新范式,为需要本地私有化、深度定制或追求成本效益的开发者提供了新选择,并将开源大模型的安全验证基线向前推进。

IT 累计浏览 4

LongCat-Flash:美团发布的高效MoE大模型,支持智能体任务,推理速度达100 token/秒

美团发布LongCat-Flash大模型,总参数量达5600亿,是一款混合专家架构模型。其核心创新在于引入零计算专家机制,可根据上下文动态调整每个token激活的专家数量,实现计算资源的弹性分配,平均激活参数量约270亿。同时,模型采用快捷连接MoE结构,通过跨层设计将密集计算与通信重叠执行,大幅降低了训练和推理延迟。 训练方面,模型通过超参数迁移和模型增长初始化策略提升效率,并采用多阶段训练与数据配比调整,逐步强化代码与推理能力。推理部署上,结合多token预测、分层量化等技术,在H800上实现100 token/秒的生成速度。在智能体任务评测中,LongCat-Flash在终端操作和工具调用等场景表现突出,已全面开源权重与代码,为MoE架构与智能体研究提供重要参考。