IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

搜索引擎spider整理

博客园-rethink log 2009-11-18 13:42:01 累计浏览 2,004 次
本机暂存

      阅读: 104 评论: 0 作者: rethink 发表于 2009-11-09 17:07 原文链接

    百度

    百度的spider的user agent都会包含 Baiduspider 字符串。

    相关资料:http://www.baidu.com/search/spider.htm

    google

    google的spider的user agent都会包含  Googlebot 字符串。

    相关资料:http://www.google.com/bot.html

    soso

    soso的spider的user agent都会包含 Sosospider 字符串

    相关资料:http://help.soso.com/webspider.htm 

sogou

sogou的spider的user agent都会包含 Sogou web spider 字符串

    相关资料:http://www.sogou.com/docs/help/webmasters.htm#07

    其他的也都差不多。。。可以自行查看下网站的access log。

    如何通过php程序控制 spider 的行为?

    通过 $_SERVER["HTTP_USER_AGENT"] 获取来访者的 user agent,然后判断是否含有相应的搜索引擎spider的特定字符串,再采取后续动作就可以了。

    $user_agent = $_SERVER["HTTP_USER_AGENT"];

    if ( eregi("Googlebot",$user_agent) )

    {

     // is google\'s spider access, you can do something for it~

    }

    ?> 

同分类推荐文章

  1. 美团 BI 在指标平台和分析引擎上的探索和实践 (2026-06-15 09:05:33)
  2. 把 Next.js 拆成壳:LobeHub 后端迁移 Hono 实录 (2026-06-10 19:27:40)
  3. 把 MinIO 示例迁到 OtterIO:使用、部署与迁移验证 (2026-06-09 22:34:00)

查看更多 后端 文章 →

建议继续学习

  1. 浅析http协议、cookies和session机制、浏览器缓存 (累计阅读 17,348)
  2. 从输入 URL 到页面加载完成的过程中都发生了什么事情? (累计阅读 15,841)
  3. libcurl的使用总结(二) (累计阅读 15,025)
  4. 使用python爬虫抓站的一些技巧总结:进阶篇 (累计阅读 13,217)
  5. HTTP协议Keep-Alive模式详解 (累计阅读 12,033)
  6. 你必须了解的Session的本质 (累计阅读 11,358)
  7. curl 命令使用cookie (累计阅读 9,959)
  8. 淘宝搜索:定向抓取网页技术漫谈 (累计阅读 9,465)
  9. Hello! 404 (累计阅读 9,326)
  10. 解决 nginx 反向代理网页首尾出现神秘字符的问题 (累计阅读 9,045)