IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

搜索引擎停用词

标点符 2010-04-06 13:51:08 累计浏览 2,672 次
本机暂存

    为节省存储空间和提高搜索效率,搜索引擎在索引页面或处理搜索请求时会自动忽略某些字或词,这些字或词即被称为Stop Words(停用词)。

    Stop Words大致为如下三类:

应用十分广泛,在Internet上随处可见的词,比如“Web”一词几乎在每个网站上均会出现,对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率。语气助词、副词、介词、连接词等,通常自身并无明确的意义,只有将其放入一个完整的句子中才有一定作用,如常见的“的”、“在”之类。受某种人为因素,搜索引擎屏蔽的词。

    了解Stop Words,在网页内容中适当地减少Stop Words出现的频率,可以有效地帮助提高关键词密度,而在网页Title中避免出现Stop Words往往能够让我们优化的关键词更突出。

    部分中文停用词和英文Stop Words下载:http://www.box.net/shared/yo2j2t8y19

    原图已失效原图已失效

同分类推荐文章

  1. 对基本有序的序列排序算法 (2026-06-11 17:46:49)
  2. Four Levels Of Customer Understanding (2026-05-22 21:00:00)
  3. 除法的意义 (2026-04-12 20:52:17)

查看更多 算法 文章 →

建议继续学习

  1. 怎样用好Google进行搜索 (累计阅读 15,814)
  2. perl更新/修改/删除文本文件内容 (累计阅读 10,646)
  3. 相似度计算常用方法综述 (累计阅读 10,602)
  4. AWK 简明教程 (累计阅读 9,364)
  5. 搜索引擎的特殊用法 (累计阅读 8,119)
  6. 百度日本-四面楚歌 (累计阅读 8,003)
  7. AWK介绍 (累计阅读 6,707)
  8. awk 实例之二维数组 (累计阅读 6,010)
  9. Perl命令行常见用法及技巧 (累计阅读 5,912)
  10. 正则表达式的与或非 (累计阅读 5,867)