专题：Mistral -- IT技术博客大学习 -- 共学习共进步！

IT 累计浏览 113

Mistral Magistral：纯强化学习炼就的推理引擎，颠覆LLM训练范式

Mistral AI发布其首个纯强化学习训练的推理模型系列Magistral，核心突破在于完全摒弃了传统RLHF框架中依赖的监督微调蒸馏步骤，从基础模型出发仅通过强化学习进行优化。该方法在数学与代码推理任务上取得显著提升，例如在AIME-24数学基准上性能提升近50%。其技术核心是对GRPO算法的深度改造，关键创新包括移除KL散度计算以加速训练、通过损失归一化消除生成长度偏差、放宽信任域上限以鼓励探索，并设计了精细的多维奖励机制，涵盖格式正确性、代码执行结果、长度惩罚及语言一致性。该研究带来几个颠覆性发现：纯文本RL训练意外提升了多模态模型在视觉任务上的表现；证明了24B规模的小模型同样能通过纯RL路径获得接近蒸馏模型的性能，推翻了先前认为小模型必须依赖蒸馏的结论；并且RL习得的推理能力在数学与代码任务间展现出良好的跨领域泛化特性。Mistral同步开源了24B参数的Magistral Small模型。

标签：Mistral

Mistral Magistral：纯强化学习炼就的推理引擎，颠覆LLM训练范式