标签：SVD

共 2 篇相关文章

IT 累计浏览 5,133

谈谈SVD和LSA

这篇讲的是SVD（奇异值分解）和LSA（隐含语义分析）之间的关系。作者首先拆解了LSA的核心思想：它是一种主题模型，认为词语背后由潜在主题驱动。比如“计算机”和“电脑”在传统词向量空间中无关，但在LSA看来它们同属一个主题，因此包含它们的文章也相关，这突破了表面词汇的限制。而SVD正是实现LSA的关键数学工具。文章从特征值与特征向量这些基础概念切入，为理解SVD如何分解文档-词矩阵、提取潜在语义结构做了铺垫。作者也点出SVD的广泛应用，比如它同样是PCA（主成分分析）和图像压缩的技术基础。整篇文章从数学基础讲到实际应用，清晰地勾勒出SVD作为通用分解方法，如何催生了LSA这一文本分析利器。

IT 累计浏览 5,276

概率语言模型及其变形系列-PLSA及EM算法

这篇从LSA（隐性语义分析）的SVD方法入手，分析了其处理一词多义和一义多词问题时的不足——通过低秩逼近虽然能降维去噪，但缺乏严谨的统计基础且计算耗时。由此自然引入Hofmann提出的PLSA模型。 PLSA采用概率图模型重新表述文档生成过程：先以一定概率选中文档，再从中抽取主题，最后根据主题生成单词。文档和主题都被建模为多项分布，而EM算法则负责估计这些隐含参数。文章不仅推导了PLSA的数学框架，还通过简单的混合Unigram模型与高斯混合模型（GMM）类比，帮助理解EM算法“期望步-最大化步”的迭代精髓。整个系列其实计划覆盖从PLSA、LDA到各类变形模型（如Twitter LDA、Labeled-LDA等）的演进脉络，这篇作为开篇，扎实地奠定了概率主题模型的基础认知。