专题：语言模型 -- IT技术博客大学习 -- 共学习共进步！

您现在的位置：首页 --> 查看专题：语言模型

LDA是由Blei,Ng, Jordan 2002年发表于JMLR的概率语言模型，应用到文本建模范畴，就是对文本进行“隐性语义分析”(LSA)，目的是要以无指导学习的方法从文本中发现隐含的语义维度-即“Topic”或者“Concept”。隐性语义分析的实质是要利用文本中词项(term)的共现特征来发现文本的Topic结构，这种方法不需要任何关于文本的背景知识。文本的隐性语义表示可以对“一词多义”和“一义多词”的语言现象进行建模，这使得搜索引擎系统得到的搜索结果与用户的query在语义层次上match，而不是仅仅只是在词汇层次上出现交集。

概率语言模型及其变形系列-PLSA及EM算法

本文主要介绍PLSA及EM算法，首先给出LSA(隐性语义分析)的早期方法SVD，然后引入基于概率的PLSA模型，其参数学习采用EM算法。接着我们分析如何运用EM算法估计一个简单的mixture unigram 语言模型和混合高斯模型GMM的参数，最后总结EM算法的一般形式及运用关键点。对于改进PLSA，引入hyperparameter的LDA模型及其Gibbs Sampling参数估计方法放在本系列后面的文章LDA及Gibbs Samping介绍。

[ 共2篇文章 ][ 第1页/共1页 ][ 1 ]

近3天十大热文

赞助商广告