理解大语言模型 - 读《图解 DeepSeek 技术》
《图解 DeepSeek 技术》以图文并茂的方式,将大语言模型的核心技术难点进行了直观化解构。作者通过阅读,梳理出三个关键概念及其个人理解。首先是缩放定律,即通过增大参数量、数据量与计算量来提升模型性能,其表现符合幂律分布,与自然界的“量变引发质变”现象类似,模型在规模达到临界点后会产生“涌现”智能。其次,为突破单纯堆砌规模的局限,研究人员引入了“深度思考”模式,让模型在生成阶段消耗更多计算资源进行类似人类“慢思考”的深度推理,从而显著提升答案质量。最后,文章阐述了蒸馏技术,它允许庞大的教师模型(如DeepSeek-R1)将其推理能力迁移给更小的学生模型,这一过程好比“师徒学习”,使小模型在有限参数下也能掌握复杂思维模式,极大提升了模型的实用性和部署效率。