专题：阅读笔记 -- IT技术博客大学习 -- 共学习共进步！

IT 累计浏览 104

理解大语言模型 - 读《图解 DeepSeek 技术》

《图解 DeepSeek 技术》以图文并茂的方式，将大语言模型的核心技术难点进行了直观化解构。作者通过阅读，梳理出三个关键概念及其个人理解。首先是缩放定律，即通过增大参数量、数据量与计算量来提升模型性能，其表现符合幂律分布，与自然界的“量变引发质变”现象类似，模型在规模达到临界点后会产生“涌现”智能。其次，为突破单纯堆砌规模的局限，研究人员引入了“深度思考”模式，让模型在生成阶段消耗更多计算资源进行类似人类“慢思考”的深度推理，从而显著提升答案质量。最后，文章阐述了蒸馏技术，它允许庞大的教师模型（如DeepSeek-R1）将其推理能力迁移给更小的学生模型，这一过程好比“师徒学习”，使小模型在有限参数下也能掌握复杂思维模式，极大提升了模型的实用性和部署效率。

标签：阅读笔记

理解大语言模型 - 读《图解 DeepSeek 技术》