标签：MoE

共 5 篇相关文章

IT 累计浏览 159

正式开源！美团 LongCat-2.0 同步开放国产卡推理代码

美团正式开源了万亿参数大模型LongCat-2.0。该模型总参数1.6T，平均激活约48B，专为Agentic Coding任务设计。其核心技术突破在于通过模型架构、芯片适配与部署策略的深度协同优化，实现了在显存与带宽受限的国产算力集群上的高效稳定推理。模型层面创新性地引入LongCat稀疏注意力（LSA）和N-gram Embedding，分别提升了长上下文处理效率与Token级表示能力。在芯片适配上，通过Super Kernel、Weight Prefetch及基于高速互联的KV-cache传输等技术最大化硬件利用率。部署策略则采用PD分离，通过缩小Expert-Parallel域、序列并行、KV-cache切分及异步负载均衡等方法，兼顾首Token延迟与生成速度，并支持多种推理优化特性。此次开源同步提供BF16、FP8、INT8等多精度模型权重及针对国产NPU优化的推理代码，旨在为行业提供一条可复现的技术路径，盘活存量国产算力，推动其在真实场景中的应用。

IT 累计浏览 110

美团 LongCat-2.0 正式发布：在国产算力集群上完成全流程训练与推理的万亿参数模型

美团发布的LongCat-2.0是首个在五万卡国产算力集群上完成全流程训练与推理的万亿参数MoE模型，总参数1.6万亿，动态激活33B至56B。模型原生支持1M超长上下文，采用LongCat Sparse Attention（LSA）稀疏注意力机制，将计算量从平方级降至线性级，确保在超长文本中精准定位信息。训练方面，团队通过卡间通信异常处理、弹性扩缩卡和自动故障恢复，将月均日故障率降低70%以上；自研确定性算子和Bitwise一致性验证保障正确性；通过流水线调度和显存优化，训练MFU提升1.5倍，实现稳态日吞吐超1T tokens/day。推理阶段，利用大规模专家并行聚合访存带宽，引入零计算专家机制避免不必要传输与计算，优化核心算子调度以降低延迟。架构上，MOPD多专家融合技术集成Agent、Reasoning、Interaction三组专家，由门控网络动态调度，提升编程、推理和交互能力。评测显示，LongCat-2.0在SWE-bench Pro中获59.5分，领先多个前沿模型；在办公场景任务处理中表现均衡，如RWSearch得分78.8。应用案例包括AI SQL Agent搭建、代码库迁移、完整应用开发等，展示了其在真实工作场景中作为可靠工作伙伴的潜力。整体上，LongCat-2.0验证了国产算力进行大规模模型训练的能力，并在Agentic Coding任务中高效稳定。

IT 累计浏览 94

深度解析Kimi K2：当 1T 参数不再只是“大”，而是“能动手”的开放智能体

Kimi K2 是一款总参数达1.06T的混合专家模型，其核心突破在于从追求“答得好”转向“做得成”，旨在成为能实际执行任务的开放智能体。它采用稀疏激活架构，每个token仅激活32B参数，在保证强大能力的同时实现了高效推理。为训练如此庞大的模型，团队创新性地提出了MuonClip优化器，通过对Query和Key权重矩阵进行自适应缩放，从源头压制注意力分数的爆炸，确保了整个预训练过程的稳定性。该模型的“动手能力”源于系统化的Agentic数据构建。通过模拟工具调用的域工厂、多智能体协作的竞技场以及可验证的自举强化学习，生成了千万级高质量的agent轨迹数据用于后训练。在基准测试中，Kimi K2表现出色，在SWE-bench Verified（51.8%）、LiveCodeBench等代码与推理任务上大幅领先同类开源模型，其工程优化深度甚至使其在无需多次采样或专门思考模块的情况下接近早期高级推理模型的水平。 Kimi K2已以Apache-2.0协议开源，支持通过vLLM等主流框架进行本地部署，仅需单张80GB显存显卡即可运行。尽管目前在复杂推理长度控制、工具误调用和单轮大型项目生成等方面仍存在局限，但其路线图明确了未来将引入多模态等能力。Kimi K2将庞大的参数、海量的训练数据与实用的智能体能力相结合，为开发者提供了一个强大且开放的本地化智能体基座。

IT 累计浏览 104

OpenAI gpt-oss-120b & gpt-oss-20b 模型技术报告英中对照版

OpenAI发布的gpt-oss-120b与gpt-oss-20b是首批强调强推理与工具调用能力的开源模型。性能上，120b版本在数学、科学及代码基准上逼近闭源o4-mini，20b版本以少6倍的参数超越o3-mini，验证了MoE架构的有效性；其代码能力尤为突出，Codeforces Elo刷新同尺寸开源纪录。安全方面，模型采用deliberative alignment框架，基础拒答能力达标；OpenAI罕见公开了针对生物与网络安全的红队微调实验，表明即使经强化训练仍可控，并邀请第三方复核以设立可信风险锚点，同时强调开发者需负责叠加内容审核等安全层。生态上，通过Apache 2.0许可与高效量化（4.25bit），大幅降低了本地部署门槛（120b需80GB显存，20b仅需16GB），并配套了实现代理体验的工具链。该系列最大价值在于示范了“开放权重+开放评估+可控风险”的新范式，为需要本地私有化、深度定制或追求成本效益的开发者提供了新选择，并将开源大模型的安全验证基线向前推进。

IT 累计浏览 100

LongCat-Flash：美团发布的高效MoE大模型，支持智能体任务，推理速度达100 token/秒

美团发布LongCat-Flash大模型，总参数量达5600亿，是一款混合专家架构模型。其核心创新在于引入零计算专家机制，可根据上下文动态调整每个token激活的专家数量，实现计算资源的弹性分配，平均激活参数量约270亿。同时，模型采用快捷连接MoE结构，通过跨层设计将密集计算与通信重叠执行，大幅降低了训练和推理延迟。训练方面，模型通过超参数迁移和模型增长初始化策略提升效率，并采用多阶段训练与数据配比调整，逐步强化代码与推理能力。推理部署上，结合多token预测、分层量化等技术，在H800上实现100 token/秒的生成速度。在智能体任务评测中，LongCat-Flash在终端操作和工具调用等场景表现突出，已全面开源权重与代码，为MoE架构与智能体研究提供重要参考。