IT技术博客大学习 共学习 共进步

搜索引擎停用词

标点符 2010-04-06 13:51:08 浏览 2,601 次

    为节省存储空间和提高搜索效率,搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词,这些字或词即被称为Stop Words(停用词)。

    Stop Words大致为如下三类:

应用十分广泛,在Internet上随处可见的词,比如“Web”一词几乎在每个网站上均会出现,对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率。语气助词、副词、介词、连接词等,通常自身并无明确的意义,只有将其放入一个完整的句子中才有一定作用,如常见的“的”、“在”之类。受某种人为因素,搜索引擎屏蔽的词。

    了解Stop Words,在网页内容中适当地减少Stop Words出现的频率,可以有效地帮助提高关键词密度,而在网页Title中避免出现Stop Words往往能够让我们优化的关键词更突出。

    部分中文停用词和英文Stop Words下载:http://www.box.net/shared/yo2j2t8y19

    

建议继续学习

  1. 怎样用好Google进行搜索 (阅读 15,662)
  2. 淘宝搜索:定向抓取网页技术漫谈 (阅读 9,362)
  3. 简析搜索引擎中网络爬虫的搜索策略 (阅读 7,282)
  4. 几种常见的基于Lucene的开源搜索解决方案对比 (阅读 5,981)
  5. 基于用户行为分析的搜索引擎自动性能评价 (阅读 5,602)
  6. 百度搜索URL参数解析 (阅读 5,581)
  7. 用Sphinx快速搭建站内搜索功能 (阅读 5,564)
  8. Xapian搜索体系结构 (阅读 5,161)
  9. 附近地点搜索初探 (阅读 5,141)
  10. 互联网网站的反爬虫策略浅析 (阅读 5,042)