您现在的位置:首页 --> 查看专题: 语言模型
LDA是由Blei,Ng, Jordan 2002年发表于JMLR的概率语言模型,应用到文本建模范畴,就是对文本进行“隐性语义分析”(LSA),目的是要以无指导学习的方法从文本中发现隐含的语义维度-即“Topic”或者“Concept”。隐性语义分析的实质是要利用文本中词项(term)的共现特征来发现文本的Topic结构,这种方法不需要任何关于文本的背景知识。文本的隐性语义表示可以对“一词多义”和“一义多词”的语言现象进行建模,这使得搜索引擎系统得到的搜索结果与用户的query在语义层次上match,而不是仅仅只是在词汇层次上出现交集。
本文主要介绍PLSA及EM算法,首先给出LSA(隐性语义分析)的早期方法SVD,然后引入基于概率的PLSA模型,其参数学习采用EM算法。接着我们分析如何运用EM算法估计一个简单的mixture unigram 语言模型和混合高斯模型GMM的参数,最后总结EM算法的一般形式及运用关键点。对于改进PLSA,引入hyperparameter的LDA模型及其Gibbs Sampling参数估计方法放在本系列后面的文章LDA及Gibbs Samping介绍。
[ 共2篇文章 ][ 第1页/共1页 ][ 1 ]
近3天十大热文
- [57] WEB系统需要关注的一些点
- [50] Oracle MTS模式下 进程地址与会话信
- [50] Go Reflect 性能
- [49] find命令的一点注意事项
- [47] 如何拿下简短的域名
- [47] Twitter/微博客的学习摘要
- [46] 【社会化设计】自我(self)部分――欢迎区
- [46] 流程管理与用户研究
- [45] android 开发入门
- [45] 关于恐惧的自白
赞助商广告