标签：Topic Model

共 2 篇相关文章

IT 累计浏览 6,790

如何计算两个文档的相似度（一）

作者在构建“课程图谱”网站时，面临课程推荐系统冷启动的难题：缺乏用户行为数据，人工标注标签又耗时。一个可行的思路是直接利用课程文本内容计算相似度，而作者最终选择了基于主题模型的自动化方案。核心工具是强大的Python库gensim，文章以LSI（浅层语义索引）模型为例，展示了如何将两篇文档映射到主题维度，进而计算其语义相似度。作者用不到百行的代码便实现了这一流程，并给出了以Andrew Ng《机器学习》课为示例的推荐效果图。文章还规划了进一步优化：利用全量英文维基百科语料，在普通笔记本电脑上训练更复杂的LSI和LDA模型，以提升相似度计算效果。文章整体脉络清晰，分为三个部分：先简要铺垫TF-IDF、SVD等基础知识点并提供参考资料；再详解gensim的安装与具体实现；最后探讨在大规模语料上训练模型的应用。作者并非平铺直叙，而是从实际项目需求出发，分享了从选型到落地的完整思考与实践。

IT 累计浏览 5,133

谈谈SVD和LSA

这篇讲的是SVD（奇异值分解）和LSA（隐含语义分析）之间的关系。作者首先拆解了LSA的核心思想：它是一种主题模型，认为词语背后由潜在主题驱动。比如“计算机”和“电脑”在传统词向量空间中无关，但在LSA看来它们同属一个主题，因此包含它们的文章也相关，这突破了表面词汇的限制。而SVD正是实现LSA的关键数学工具。文章从特征值与特征向量这些基础概念切入，为理解SVD如何分解文档-词矩阵、提取潜在语义结构做了铺垫。作者也点出SVD的广泛应用，比如它同样是PCA（主成分分析）和图像压缩的技术基础。整篇文章从数学基础讲到实际应用，清晰地勾勒出SVD作为通用分解方法，如何催生了LSA这一文本分析利器。