您现在的位置:首页 --> 查看专题: TF-IDF
TF-IDF模型是搜索引擎中广泛使用的信息检索模型,但对于TF-IDF模型一直存在各种疑问。本文为信息检索问题一种基于条件概率的盒子小球模型,其核心思想是把“查询串q和文档d的匹配度问题”转化为“查询串q来自于文档d的条件概率问题”。它从概率的视角为信息检索问题定义了比TF-IDF模型所表达的匹配度更为清晰的目标。从概率模型中,我们看到查询串q来自于文档d的条件概率主要包含以下几个因素:1) 文档的先验概率P(d[i]),这与PageRank对应;2) 词w被作为搜索关键词的先验概率P(w),这可以通过统计方法获得;3) 关键词w代表文档d主题,或以词w搜索文档d的概率,P(w | d),除了统计方法,这可以通过tf-idf来计算。
[ 共1篇文章 ][ 第1页/共1页 ][ 1 ]
近3天十大热文
-
[69] Java开发岗位面试题归类汇总
-
[66] Go Reflect 性能
-
[63] IOS安全–浅谈关于IOS加固的几种方法
-
[61] 【社会化设计】自我(self)部分――欢迎区
-
[61] 如何拿下简短的域名
-
[61] android 开发入门
-
[59] Oracle MTS模式下 进程地址与会话信
-
[49] WEB系统需要关注的一些点
-
[49] 图书馆的世界纪录
-
[45] Twitter/微博客的学习摘要
赞助商广告