专题：ScMoE -- IT技术博客大学习 -- 共学习共进步！

IT 累计浏览 99

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

美团发布LongCat-Flash大模型，总参数量达5600亿，是一款混合专家架构模型。其核心创新在于引入零计算专家机制，可根据上下文动态调整每个token激活的专家数量，实现计算资源的弹性分配，平均激活参数量约270亿。同时，模型采用快捷连接MoE结构，通过跨层设计将密集计算与通信重叠执行，大幅降低了训练和推理延迟。训练方面，模型通过超参数迁移和模型增长初始化策略提升效率，并采用多阶段训练与数据配比调整，逐步强化代码与推理能力。推理部署上，结合多token预测、分层量化等技术，在H800上实现100 token/秒的生成速度。在智能体任务评测中，LongCat-Flash在终端操作和工具调用等场景表现突出，已全面开源权重与代码，为MoE架构与智能体研究提供重要参考。

标签：ScMoE

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒