搜索引擎停用词
浏览:2414次 出处信息
为节省存储空间和提高搜索效率,搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词,这些字或词即被称为Stop Words(停用词)。
Stop Words大致为如下三类:
应用十分广泛,在Internet上随处可见的词,比如“Web”一词几乎在每个网站上均会出现,对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率。语气助词、副词、介词、连接词等,通常自身并无明确的意义,只有将其放入一个完整的句子中才有一定作用,如常见的“的”、“在”之类。受某种人为因素,搜索引擎屏蔽的词。了解Stop Words,在网页内容中适当地减少Stop Words出现的频率,可以有效地帮助提高关键词密度,而在网页Title中避免出现Stop Words往往能够让我们优化的关键词更突出。
部分中文停用词和英文Stop Words下载:http://www.box.net/shared/yo2j2t8y19
建议继续学习:
- 怎样用好Google进行搜索 (阅读:15315)
- 淘宝搜索:定向抓取网页技术漫谈 (阅读:8937)
- 简析搜索引擎中网络爬虫的搜索策略 (阅读:6807)
- 几种常见的基于Lucene的开源搜索解决方案对比 (阅读:5525)
- 基于用户行为分析的搜索引擎自动性能评价 (阅读:5202)
- 百度搜索URL参数解析 (阅读:5158)
- 用Sphinx快速搭建站内搜索功能 (阅读:5134)
- 附近地点搜索初探 (阅读:4782)
- 互联网网站的反爬虫策略浅析 (阅读:4720)
- Xapian搜索体系结构 (阅读:4781)
QQ技术交流群:445447336,欢迎加入!
扫一扫订阅我的微信号:IT技术博客大学习
扫一扫订阅我的微信号:IT技术博客大学习
<< 前一篇:无知者无畏
后一篇:OGRE里如何实现碰撞检测 >>
文章信息
- 作者:标点符 来源: 标点符
- 标签: 停用词 搜索
- 发布时间:2010-04-06 13:51:08
建议继续学习
近3天十大热文
-
[927] WordPress插件开发 -- 在插件使用 -
[133] 解决 nginx 反向代理网页首尾出现神秘字 -
[52] 如何保证一个程序在单台服务器上只有唯一实例( -
[52] 整理了一份招PHP高级工程师的面试题 -
[50] 全站换域名时利用nginx和javascri -
[50] 海量小文件存储 -
[50] 用 Jquery 模拟 select -
[49] CloudSMS:免费匿名的云短信 -
[48] Innodb分表太多或者表分区太多,会导致内 -
[47] jQuery性能优化指南
