IT技术博客大学习 共学习 共进步

标签:MiniMax-M1

共 1 篇相关文章

IT 累计浏览 5

MiniMax-M1:闪电注意力重塑大模型推理效率,百万上下文时代来临,附技术报告英中对照版

MiniMax-M1通过闪电注意力机制与混合专家架构,在保持局部感知的同时将Transformer注意力复杂度降至O(n),原生支持百万级输入与八万级输出,显著突破现有模型的上下文长度限制。其训练框架引入CISPO算法,通过裁剪重要性采样权重而非Token更新,解决了强化学习中关键推理信号被抑制的问题,在数学推理任务上实现两倍于传统方法的训练效率。工程层面通过修复精度误差、动态截断等优化,大幅降低大规模训练成本。 该模型采用分层数据策略:数学、代码等可验证任务构建规则化奖励信号,开放域任务则通过动态校准奖励模型治理长度偏差,并以课程学习方式平衡泛化与稳定性。性能实测显示,MiniMax-M1在长上下文理解与工具调用任务中接近或超越领先模型,但在复杂数学推理上仍存优化空间。其全面开源模型权重与训练代码,为行业提供了高性价比的长上下文推理方案,推动大模型应用向更长文本、更低成本的场景扩展。