IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

搜索引擎spider整理

博客园-rethink log 2009-11-18 13:42:01 累计浏览 2,039 次
本机暂存

      阅读: 104 评论: 0 作者: rethink 发表于 2009-11-09 17:07 原文链接

    百度

    百度的spider的user agent都会包含 Baiduspider 字符串。

    相关资料:http://www.baidu.com/search/spider.htm

    google

    google的spider的user agent都会包含  Googlebot 字符串。

    相关资料:http://www.google.com/bot.html

    soso

    soso的spider的user agent都会包含 Sosospider 字符串

    相关资料:http://help.soso.com/webspider.htm 

sogou

sogou的spider的user agent都会包含 Sogou web spider 字符串

    相关资料:http://www.sogou.com/docs/help/webmasters.htm#07

    其他的也都差不多。。。可以自行查看下网站的access log。

    如何通过php程序控制 spider 的行为?

    通过 $_SERVER["HTTP_USER_AGENT"] 获取来访者的 user agent,然后判断是否含有相应的搜索引擎spider的特定字符串,再采取后续动作就可以了。

    $user_agent = $_SERVER["HTTP_USER_AGENT"];

    if ( eregi("Googlebot",$user_agent) )

    {

     // is google\'s spider access, you can do something for it~

    }

    ?> 

同分类推荐文章

  1. 等了十年的 Go 链式管道,终于来了:seq 让你像写 Scala 一样写 Go (2026-06-25 18:38:18)
  2. Go 实验特性详解 (2026-06-21 10:05:27)
  3. amd64 微架构级别对 Go 程序性能提升多少? (2026-06-21 09:38:49)

查看更多 后端 文章 →

建议继续学习

  1. 浅析http协议、cookies和session机制、浏览器缓存 (累计阅读 17,445)
  2. 从输入 URL 到页面加载完成的过程中都发生了什么事情? (累计阅读 15,933)
  3. libcurl的使用总结(二) (累计阅读 15,083)
  4. 使用python爬虫抓站的一些技巧总结:进阶篇 (累计阅读 13,300)
  5. HTTP协议Keep-Alive模式详解 (累计阅读 12,103)
  6. 你必须了解的Session的本质 (累计阅读 11,440)
  7. curl 命令使用cookie (累计阅读 10,015)
  8. 淘宝搜索:定向抓取网页技术漫谈 (累计阅读 9,529)
  9. Hello! 404 (累计阅读 9,384)
  10. 解决 nginx 反向代理网页首尾出现神秘字符的问题 (累计阅读 9,094)