技术头条 - 一个快速在微博传播文章的方式     搜索本站
您现在的位置首页 --> 算法 --> 搜索引擎停用词

搜索引擎停用词

浏览:2109次  出处信息

    为节省存储空间和提高搜索效率,搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词,这些字或词即被称为Stop Words(停用词)。

    Stop Words大致为如下三类:

应用十分广泛,在Internet上随处可见的词,比如“Web”一词几乎在每个网站上均会出现,对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率。语气助词、副词、介词、连接词等,通常自身并无明确的意义,只有将其放入一个完整的句子中才有一定作用,如常见的“的”、“在”之类。受某种人为因素,搜索引擎屏蔽的词。

    了解Stop Words,在网页内容中适当地减少Stop Words出现的频率,可以有效地帮助提高关键词密度,而在网页Title中避免出现Stop Words往往能够让我们优化的关键词更突出。

    部分中文停用词和英文Stop Words下载:http://www.box.net/shared/yo2j2t8y19

    

建议继续学习:

  1. 怎样用好Google进行搜索    (阅读:14397)
  2. 淘宝搜索:定向抓取网页技术漫谈    (阅读:8033)
  3. 简析搜索引擎中网络爬虫的搜索策略    (阅读:5658)
  4. 几种常见的基于Lucene的开源搜索解决方案对比    (阅读:4487)
  5. 用Sphinx快速搭建站内搜索功能    (阅读:4253)
  6. 基于用户行为分析的搜索引擎自动性能评价    (阅读:4120)
  7. 互联网网站的反爬虫策略浅析    (阅读:4006)
  8. 附近地点搜索初探    (阅读:4002)
  9. Xapian搜索体系结构    (阅读:3875)
  10. 百度搜索URL参数解析    (阅读:3875)
QQ技术交流群:445447336,欢迎加入!
扫一扫订阅我的微信号:IT技术博客大学习
<< 前一篇:无知者无畏
© 2009 - 2024 by blogread.cn 微博:@IT技术博客大学习

京ICP备15002552号-1