IT技术博客大学习 共学习 共进步

标签:ScMoE

共 1 篇相关文章

IT 累计浏览 4

LongCat-Flash:美团发布的高效MoE大模型,支持智能体任务,推理速度达100 token/秒

美团发布LongCat-Flash大模型,总参数量达5600亿,是一款混合专家架构模型。其核心创新在于引入零计算专家机制,可根据上下文动态调整每个token激活的专家数量,实现计算资源的弹性分配,平均激活参数量约270亿。同时,模型采用快捷连接MoE结构,通过跨层设计将密集计算与通信重叠执行,大幅降低了训练和推理延迟。 训练方面,模型通过超参数迁移和模型增长初始化策略提升效率,并采用多阶段训练与数据配比调整,逐步强化代码与推理能力。推理部署上,结合多token预测、分层量化等技术,在H800上实现100 token/秒的生成速度。在智能体任务评测中,LongCat-Flash在终端操作和工具调用等场景表现突出,已全面开源权重与代码,为MoE架构与智能体研究提供重要参考。