Mistral Magistral:纯强化学习炼就的推理引擎,颠覆LLM训练范式
Mistral AI发布其首个纯强化学习训练的推理模型系列Magistral,核心突破在于完全摒弃了传统RLHF框架中依赖的监督微调蒸馏步骤,从基础模型出发仅通过强化学习进行优化。该方法在数学与代码推理任务上取得显著提升,例如在AIME-24数学基准上性能提升近50%。 其技术核心是对GRPO算法的深度改造,关键创新包括移除KL散度计算以加速训练、通过损失归一化消除生成长度偏差、放宽信任域上限以鼓励探索,并设计了精细的多维奖励机制,涵盖格式正确性、代码执行结果、长度惩罚及语言一致性。 该研究带来几个颠覆性发现:纯文本RL训练意外提升了多模态模型在视觉任务上的表现;证明了24B规模的小模型同样能通过纯RL路径获得接近蒸馏模型的性能,推翻了先前认为小模型必须依赖蒸馏的结论;并且RL习得的推理能力在数学与代码任务间展现出良好的跨领域泛化特性。Mistral同步开源了24B参数的Magistral Small模型。
MiniMax-M1:闪电注意力重塑大模型推理效率,百万上下文时代来临,附技术报告英中对照版
MiniMax-M1通过闪电注意力机制与混合专家架构,在保持局部感知的同时将Transformer注意力复杂度降至O(n),原生支持百万级输入与八万级输出,显著突破现有模型的上下文长度限制。其训练框架引入CISPO算法,通过裁剪重要性采样权重而非Token更新,解决了强化学习中关键推理信号被抑制的问题,在数学推理任务上实现两倍于传统方法的训练效率。工程层面通过修复精度误差、动态截断等优化,大幅降低大规模训练成本。 该模型采用分层数据策略:数学、代码等可验证任务构建规则化奖励信号,开放域任务则通过动态校准奖励模型治理长度偏差,并以课程学习方式平衡泛化与稳定性。性能实测显示,MiniMax-M1在长上下文理解与工具调用任务中接近或超越领先模型,但在复杂数学推理上仍存优化空间。其全面开源模型权重与训练代码,为行业提供了高性价比的长上下文推理方案,推动大模型应用向更长文本、更低成本的场景扩展。
深度解析Kimi K2:当 1T 参数不再只是“大”,而是“能动手”的开放智能体
Kimi K2 是一款总参数达1.06T的混合专家模型,其核心突破在于从追求“答得好”转向“做得成”,旨在成为能实际执行任务的开放智能体。它采用稀疏激活架构,每个token仅激活32B参数,在保证强大能力的同时实现了高效推理。为训练如此庞大的模型,团队创新性地提出了MuonClip优化器,通过对Query和Key权重矩阵进行自适应缩放,从源头压制注意力分数的爆炸,确保了整个预训练过程的稳定性。 该模型的“动手能力”源于系统化的Agentic数据构建。通过模拟工具调用的域工厂、多智能体协作的竞技场以及可验证的自举强化学习,生成了千万级高质量的agent轨迹数据用于后训练。在基准测试中,Kimi K2表现出色,在SWE-bench Verified(51.8%)、LiveCodeBench等代码与推理任务上大幅领先同类开源模型,其工程优化深度甚至使其在无需多次采样或专门思考模块的情况下接近早期高级推理模型的水平。 Kimi K2已以Apache-2.0协议开源,支持通过vLLM等主流框架进行本地部署,仅需单张80GB显存显卡即可运行。尽管目前在复杂推理长度控制、工具误调用和单轮大型项目生成等方面仍存在局限,但其路线图明确了未来将引入多模态等能力。Kimi K2将庞大的参数、海量的训练数据与实用的智能体能力相结合,为开发者提供了一个强大且开放的本地化智能体基座。
解码Google Gemini 2.5:推理、多模态与智能体能力的革命性突破
Google DeepMind发布的Gemini 2.5 Pro标志着大模型进入新阶段,其核心突破在于引入了动态计算分配的“Thinking”机制,通过在响应前进行数万次内部迭代推理,显著提升了复杂问题的解决能力,例如在AIME数学竞赛基准上准确率大幅跃升。架构上基于优化的稀疏混合专家模型,计算效率提升显著。 在多模态理解方面,Gemini 2.5 Pro实现了对长达3小时视频的高效解析,并支持将视频内容转化为交互式应用。其跨模态处理能力在音视频理解基准上超越竞品,尤其在时空推理任务中优势突出。 作为智能体平台,模型展现出强大的代码生成与长程规划能力,其在软件工程基准上的性能飙升,并能完成如长时间游戏通关等复杂自主决策任务。同时,报告指出了当前面临的核心挑战:传统评估基准快速饱和,而模型能力正以指数级增长,这迫使评估范式向自我进化的方式转变。安全方面则引入了自动化红队测试等创新防御机制。 Gemini 2.5的进化表明,AI正朝着计算资源智能化分配、多模态架构深度统一以及由智能体自主进行能力评估的方向快速发展,其能力边界已开始超越人类传统认知框架。
OpenAI gpt-oss-120b & gpt-oss-20b 模型技术报告英中对照版
OpenAI发布的gpt-oss-120b与gpt-oss-20b是首批强调强推理与工具调用能力的开源模型。性能上,120b版本在数学、科学及代码基准上逼近闭源o4-mini,20b版本以少6倍的参数超越o3-mini,验证了MoE架构的有效性;其代码能力尤为突出,Codeforces Elo刷新同尺寸开源纪录。安全方面,模型采用deliberative alignment框架,基础拒答能力达标;OpenAI罕见公开了针对生物与网络安全的红队微调实验,表明即使经强化训练仍可控,并邀请第三方复核以设立可信风险锚点,同时强调开发者需负责叠加内容审核等安全层。生态上,通过Apache 2.0许可与高效量化(4.25bit),大幅降低了本地部署门槛(120b需80GB显存,20b仅需16GB),并配套了实现代理体验的工具链。该系列最大价值在于示范了“开放权重+开放评估+可控风险”的新范式,为需要本地私有化、深度定制或追求成本效益的开发者提供了新选择,并将开源大模型的安全验证基线向前推进。
LongCat-Flash:美团发布的高效MoE大模型,支持智能体任务,推理速度达100 token/秒
美团发布LongCat-Flash大模型,总参数量达5600亿,是一款混合专家架构模型。其核心创新在于引入零计算专家机制,可根据上下文动态调整每个token激活的专家数量,实现计算资源的弹性分配,平均激活参数量约270亿。同时,模型采用快捷连接MoE结构,通过跨层设计将密集计算与通信重叠执行,大幅降低了训练和推理延迟。 训练方面,模型通过超参数迁移和模型增长初始化策略提升效率,并采用多阶段训练与数据配比调整,逐步强化代码与推理能力。推理部署上,结合多token预测、分层量化等技术,在H800上实现100 token/秒的生成速度。在智能体任务评测中,LongCat-Flash在终端操作和工具调用等场景表现突出,已全面开源权重与代码,为MoE架构与智能体研究提供重要参考。
文言文白话文互转:文言文转白话文(现代文),白话文(现代文)转文言文
这篇讲的是作者利用一个开源的文言文-现代文平行语料库,动手实践了双向互译模型的全过程。起点是东北大学团队整理的约96万句对经典古籍对齐数据,这份珍贵语料覆盖广且经过人工校对,为模型训练打下了基础。作者基于此,训练了文言文转白话文、白话文转文言文两个独立的神经网络机器翻译模型,并将它们集成到AINLP公众号,用户可通过指令直接测试。文中展示了几个转换示例,说明了模型已能完成基本互译,不过作者也坦诚效果基于现有数据和模型,“仅供一乐”。整体来看,这是一次从优质语料获取、模型训练到功能部署的完整技术实践,让古籍翻译的探索变得具体而可玩。
你是如何了解或者进入NLP这个领域的?
这篇讲的是AINLP公众号发起的一次赠书留言征集活动,却意外收获了超过200条关于“如何进入NLP领域”的真实分享。作者将这些充满个人色彩的故事做了汇总,为我们勾勒出一幅生动的NLPer入行图景。 从留言中可以看到,许多人的起点充满了“偶然”:数学系的背景被导师安排做统计机器翻译,英语专业的学生因无法忍受纯人工内省而自学编程切入,甚至有心理学和文科背景的同学为了解决论文中的文本分析难题,独自摸索着走进了这个领域。另一个共性是强烈的自驱力——在缺乏系统指导的情况下,通过啃经典教材(如《统计自然语言处理》)、刷公开课、关注技术社区,从零搭建起知识体系。 这些故事背后,是一个个具体的技术探索:从Lucene分词的好奇,到词性标注与概率统计的实践,再到BERT、知识图谱的前沿追踪。它们共同指向了NLP领域的迷人之处:它用数学和代码为语言赋予了可计算的维度,而通往这个大门的道路却向所有充满热情和毅力的人敞开。活动本身也通过赠书和互动,完成了一次社区内宝贵的连接与传承。
用MeCab打造一套实用的中文分词系统
这篇讲的是如何将原本为日文设计的高性能分词器 MeCab,成功改造为一个实用的中文分词系统。作者从 MeCab 基于条件随机场(CRF)的核心优势和中文资料匮乏的现状出发,分享了一次成功的“跨界”实践。 文章的核心方案是,参考一篇关键的日文博客和官方文档的训练指南,结合微软研究院的 backoff2005 中文语料来完成训练。作者详细记录了从准备符合 MeCab 格式的种子词典(例如,词典条目为 `义演,0,0,0,0,0,0`)到利用脚本进行参数估计的完整流程。文中提到,最终得到的系统不仅速度快(实测近 2MB/s),还支持 N-best 输出和用户词典定制等实用功能。 这篇文章的价值在于,它并非停留在理论介绍,而是提供了一条可操作的路径。通过作者在 Mac 环境下的亲测记录,读者可以了解如何利用一个强大的现有框架,为自己的中文 NLP 任务快速搭建起一个高性能的基础工具。
树莓派(Raspberry Pi)使用小记
这篇讲的是一位硬件门外汉从零开始折腾树莓派(Model B+)的实战记录。作者从淘宝采购全套配件讲起,详细分享了在Mac和Windows双系统下烧录Raspbian镜像时遇到的卡点(比如读卡器识别问题),并给出了具体的解决方案。 文章的核心价值在于其“踩坑”后的经验提炼:作者强烈建议先组装好亚克力外壳再连接网线,以保证连接稳定;在配置无线网卡环节,他指出若执行常规的`ifup wlan0`命令无效,可以尝试用`sudo /etc/init.d/networking restart`重启网络服务,并附上了亲测有效的配置教程链接。 整个流程从SSH首次登录(默认用户名pi/raspberry)、运行`raspi-config`扩展分区与修改密码,到最终实现无线网络连接,步骤清晰,提供了路由器后台查IP、终端命令操作等具体截图。对于想低成本上手Linux硬件开发的爱好者,这些从自身实践中总结的细节和排障思路,能有效缩短点亮树莓派的摸索过程。
正态分布的前世今生(五)
这篇讲的是正态分布在19世纪如何从崭露头角到成为统计学基石的关键发展历程。作者从拉普拉斯和高斯两位巨人的工作切入,清晰地勾勒出正态分布在两大支柱学科中的奠基过程。 文章首先追溯到1776年,拉普拉斯为解决天文学中的彗星轨道问题,开始研究多个独立随机变量之和的概率计算。这一实践问题最终推动了中心极限定理的诞生,为正态分布在概率论中的核心地位打下了理论基础,使其成为描述“随机之和”的通用模型。 与此同时,在数理统计领域,高斯基于对天文观测误差的细致分析,大力提倡并推广正态分布,使其在误差理论与数据分析中畅行天下。文章特别提到高斯在处理测量误差时,如何将正态分布(即高斯分布)作为分析工具。 通过回顾这段历史,文章揭示了正态分布之所以能成为近代统计学“开疆扩土”的主角,正是因为它同时被概率论的理论框架(中心极限定理)和数理统计的实践需求(误差分析)所双重赋能,从而奠定了其在科学与工程领域无处不在的坚实地位。
如何计算两个文档的相似度(三)
这篇讲的是《如何计算两个文档的相似度》系列文章的实战篇。作者从上一节的gensim基础用法出发,这一次要用“课程图谱”的真实课程数据,来实际验证和改进文档相似度计算的方法,并引入了NLTK这一专业的自然语言处理工具进行文本预处理。 核心思路是利用NLTK解决真实英文文本中的“脏”问题。作者展示了,如果只是简单地将单词小写化,标点符号和单词会粘在一起,影响计算质量。因此,引入了NLTK的`word_tokenize`函数进行精细分词,将“texts.”这样的组合拆分为“texts”和“.”。更关键的一步是使用NLTK内置的英文停用词表(共127个词,如“the”, “is”, “and”),过滤掉这些高频但对主题区分贡献低的词汇。 为了让验证可复现,文章提供了完整的Coursera课程数据集,包含379门课程。数据集结构清晰,每行是“课程名\t课程简介\t课程详情”,且已清除HTML标签。摘要中展示了加载数据和进行NLTK处理的初始步骤代码,体现了从数据准备到工具应用的完整实践流程。
如何计算两个文档的相似度(二)
这篇系列文章的第二部分聚焦于gensim的实战上手。作者从安装这个看似简单的步骤切入,详细记录了在Ubuntu和Mac OS上配置gensim及其依赖库NumPy、SciPy时遇到的典型问题——比如Mac上因缺失Fortran编译器导致的SciPy安装失败,并给出了解决方案(通过Homebrew安装gfortran),这对国内开发者很有参考价值。 在核心的使用演示部分,文章没有照搬官方教程,而是另辟蹊径,使用了“Latent Semantic Indexing (LSI) A Fast Track Tutorial”中的三个简短英文文档作为案例。整个流程清晰展示了从文本预处理(小写化)、构建词袋字典、生成文档向量,到训练TF-IDF模型,最终通过LSI(潜在语义分析)将文档映射到二维主题空间的全过程。作者特别指出了gensim在计算IDF时未对出现频率为100%的词(如介词a, in, of)进行平滑处理导致其权重为零的现象,并以此反向论证了TF-IDF算法在过滤停用词上的有效性。 通过这个从安装到模型输出的完整闭环,文章为读者提供了一份可复现的gensim入门实践指南,为后续在“课程图谱”上的应用打下了基础。
如何计算两个文档的相似度(一)
作者在构建“课程图谱”网站时,面临课程推荐系统冷启动的难题:缺乏用户行为数据,人工标注标签又耗时。一个可行的思路是直接利用课程文本内容计算相似度,而作者最终选择了基于主题模型的自动化方案。 核心工具是强大的Python库gensim,文章以LSI(浅层语义索引)模型为例,展示了如何将两篇文档映射到主题维度,进而计算其语义相似度。作者用不到百行的代码便实现了这一流程,并给出了以Andrew Ng《机器学习》课为示例的推荐效果图。文章还规划了进一步优化:利用全量英文维基百科语料,在普通笔记本电脑上训练更复杂的LSI和LDA模型,以提升相似度计算效果。 文章整体脉络清晰,分为三个部分:先简要铺垫TF-IDF、SVD等基础知识点并提供参考资料;再详解gensim的安装与具体实现;最后探讨在大规模语料上训练模型的应用。作者并非平铺直叙,而是从实际项目需求出发,分享了从选型到落地的完整思考与实践。
概率语言模型及其变形系列-LDA及Gibbs Sampling
这篇讲的是概率语言模型系列的第二篇,聚焦于LDA(Latent Dirichlet Allocation)及其参数推断方法Gibbs Sampling。文章从LDA的核心思想切入:如何通过无监督学习,从文本中发现隐含的“主题”结构,从而解决“一词多义”和“一义多词”的语义匹配问题,让搜索结果在语义层面真正相关。 理解LDA的关键在于其概率基础。文章深入剖析了“随机生成过程”视角,解释了文本如何被看作词项的样本集合。重点阐述了多项分布(Multinomial)与其共轭先验狄利克雷分布(Dirichlet)的特性与计算优势——后者被称为“分布之上的分布”,其样本恰好是多项分布的参数。这些数学工具共同构成了LDA模型的基石。 作为PLSA到变形LDA之间的承上启下之作,文章不仅厘清了基础概念,也为后续探讨Twitter LDA、Labeled-LDA等各类变形模型铺平了道路。对于想从理论层面掌握主题模型的读者,这篇系统性的推导提供了扎实的起点。
概率语言模型及其变形系列-PLSA及EM算法
这篇从LSA(隐性语义分析)的SVD方法入手,分析了其处理一词多义和一义多词问题时的不足——通过低秩逼近虽然能降维去噪,但缺乏严谨的统计基础且计算耗时。由此自然引入Hofmann提出的PLSA模型。 PLSA采用概率图模型重新表述文档生成过程:先以一定概率选中文档,再从中抽取主题,最后根据主题生成单词。文档和主题都被建模为多项分布,而EM算法则负责估计这些隐含参数。文章不仅推导了PLSA的数学框架,还通过简单的混合Unigram模型与高斯混合模型(GMM)类比,帮助理解EM算法“期望步-最大化步”的迭代精髓。 整个系列其实计划覆盖从PLSA、LDA到各类变形模型(如Twitter LDA、Labeled-LDA等)的演进脉络,这篇作为开篇,扎实地奠定了概率主题模型的基础认知。
正态分布的前世今生(四)
这篇讲的是正态分布为何能在数学中占据如此核心的地位。作者没有从复杂的公式入手,而是追溯其源头,揭示出一个优美的现象:从一些简单明了的初始准则出发,数学家与物理学家们竟屡屡被引领到正态分布的门前。 文章重点介绍了高斯在1809年的一条经典推导路径:他以“误差分布导出的极大似然估计等于算术平均值”为核心准则,从一个看似合理的测量原理出发,推导出了正态分布的概率密度函数。这仅仅是四条著名“小径”中的第一条,物理学家Jaynes在其著作中总结了四条通往正态分布的不同路径。 文章穿插了高尔顿对正态分布的诗意赞美,以及数学家将其视为“概率论初恋情人”的生动比喻,将冰冷的数学定理赋予了温度与美感。它想告诉我们,正态分布之所以无处不在,或许正是因为它背后蕴含的多种深刻而简洁的原理,如同“条条曲径通正态”。阅读它,就像跟随历史上的智者,一起欣赏通往真理的“条条曲径”。
正态分布的前世今生(三)
这篇讲的是正态分布理论演进中一个关键的数学细节。作者从正态分布概率密度函数的复杂形式入手,展示了如何通过一个精巧的数学变换——将求和与指数运算结合——来逐步揭示其背后的简洁规律。文章聚焦于这个推导过程中的一处核心步骤,即如何处理一个形如∑e^{i²}的离散求和项,并将其与连续的积分形式联系起来。 文中具体呈现了从离散近似到连续极限的过渡思路,解释了为什么在特定条件下,这种复杂的求和可以近似为高斯积分,从而推导出正态分布的归一化系数。这不仅仅是公式罗列,更展示了数学分析中“化离散为连续”这一思想的具体应用。 通过拆解这个看似繁琐的推导环节,文章让读者体会到,正态分布那条优美的钟形曲线背后,是严密而巧妙的数学构造。对于想理解正态分布“为何长成这样”的读者来说,这一部分提供了非常扎实的中间视角。
正态分布的前世今生(二)
这篇文章深入讲解了最小二乘法的核心思想与历史地位。作者从一个经典问题出发:如何为一堆散乱的观测数据找到最吻合的数学规律?最小二乘法给出的方案简洁而优雅——寻找一条曲线,使得所有数据点到该曲线的垂直距离(残差)的平方和最小。 文章揭示了最小二乘法之所以被称为“数据分析的瑞士军刀”,不仅因其简单有效,更因为它与正态分布有着深刻的“前世今生”关联。历史上,正是高斯在运用最小二乘法处理天文观测数据时,为了解释其有效性而反向推导出了正态分布的形态。这意味着,当我们用最小二乘法拟合数据时,其实隐含了一个假设:数据的误差服从正态分布。 因此,最小二乘法远不止一个拟合工具,它成为了连接观测数据与概率理论的桥梁。无论是在早期的天体力学计算,还是现代的机器学习与回归分析中,这个诞生于19世纪的方法依然是处理线性模型问题最基础、最通用的“钥匙”。这是《正态分布的前世今生》系列第二篇的精彩开篇。
正态分布的前世今生(一)
这篇讲的是那个“无所不在的钟形曲线”——正态分布,作者从一个颇具文学色彩的“神说要有正态分布”开篇,巧妙引出这个统计学核心概念。 文章首先扎实地回顾了正态分布的概率密度函数及其数学形式,随后将视角拉向历史深处。它指出,这个分布并非凭空诞生,其核心的“误差分布原理”在18世纪就已被棣莫弗发现,但真正将其系统化并应用于天文学测量、解决实际误差问题的是高斯。高斯的推导过程,本质上是将观测误差视为大量微小、独立随机因素的综合结果。 作者也并未回避历史上的争议,提到了拉普拉斯同样重要的贡献,以及柯西分布等“反例”的存在,说明正态分布虽是理想模型,但并非万能。整个叙述将抽象的数学公式与具体的历史情境、科学家的思考过程交织在一起,清晰地勾勒出正态分布从“发现”到“应用”的演进逻辑,让读者理解它为何如此重要,又诞生于何种现实需求。