美团 LongCat-2.0 正式发布:在国产算力集群上完成全流程训练与推理的万亿参数模型
美团发布的LongCat-2.0是首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数MoE模型,总参数1.6万亿,动态激活33B至56B。模型原生支持1M超长上下文,采用LongCat Sparse Attention(LSA)稀疏注意力机制,将计算量从平方级降至线性级,确保在超长文本中精准定位信息。训练方面,团队通过卡间通信异常处理、弹性扩缩卡和自动故障恢复,将月均日故障率降低70%以上;自研确定性算子和Bitwise一致性验证保障正确性;通过流水线调度和显存优化,训练MFU提升1.5倍,实现稳态日吞吐超1T tokens/day。推理阶段,利用大规模专家并行聚合访存带宽,引入零计算专家机制避免不必要传输与计算,优化核心算子调度以降低延迟。架构上,MOPD多专家融合技术集成Agent、Reasoning、Interaction三组专家,由门控网络动态调度,提升编程、推理和交互能力。评测显示,LongCat-2.0在SWE-bench Pro中获59.5分,领先多个前沿模型;在办公场景任务处理中表现均衡,如RWSearch得分78.8。应用案例包括AI SQL Agent搭建、代码库迁移、完整应用开发等,展示了其在真实工作场景中作为可靠工作伙伴的潜力。整体上,LongCat-2.0验证了国产算力进行大规模模型训练的能力,并在Agentic Coding任务中高效稳定。