IT技术博客大学习 共学习 共进步

标签:Mistral

共 1 篇相关文章

IT 累计浏览 3

Mistral Magistral:纯强化学习炼就的推理引擎,颠覆LLM训练范式

Mistral AI发布其首个纯强化学习训练的推理模型系列Magistral,核心突破在于完全摒弃了传统RLHF框架中依赖的监督微调蒸馏步骤,从基础模型出发仅通过强化学习进行优化。该方法在数学与代码推理任务上取得显著提升,例如在AIME-24数学基准上性能提升近50%。 其技术核心是对GRPO算法的深度改造,关键创新包括移除KL散度计算以加速训练、通过损失归一化消除生成长度偏差、放宽信任域上限以鼓励探索,并设计了精细的多维奖励机制,涵盖格式正确性、代码执行结果、长度惩罚及语言一致性。 该研究带来几个颠覆性发现:纯文本RL训练意外提升了多模态模型在视觉任务上的表现;证明了24B规模的小模型同样能通过纯RL路径获得接近蒸馏模型的性能,推翻了先前认为小模型必须依赖蒸馏的结论;并且RL习得的推理能力在数学与代码任务间展现出良好的跨领域泛化特性。Mistral同步开源了24B参数的Magistral Small模型。