搜索引擎spider整理

博客园-rethink log 2009-11-18 13:42:01 累计浏览 2,004 次

本机暂存

内容概览

这篇由rethink在2009年发布的文章，系统梳理了搜索引擎蜘蛛（spider/crawler）的核心机制与实践要点。作者从蜘蛛的抓取原理切入，解释了它是如何通过链接发现并持续访问网页的，并区分了广度优先与深度优先等不同抓取策略的适用场景。

文章特别强调了网站与蜘蛛交互的关键环节。例如，如何通过`robots.txt`文件有效引导抓取行为，避免服务器过载；以及Sitemap如何帮助蜘蛛更高效地发现深层内容。此外，对于当时常见的网站架构问题，如动态URL、重复内容和死链，作者也给出了相应的优化建议，旨在提升蜘蛛的抓取效率和网站的索引质量。

尽管成文于多年前，但其中关于爬虫基础逻辑、网站结构优化以及与搜索引擎友好沟通的原则，对于理解SEO基础及网站运维仍有直接的参考价值。这是一份清晰、实用的入门整理，适合需要快速建立相关知识框架的开发者与网站管理员。

　　阅读: 104 评论: 0 作者: rethink 发表于 2009-11-09 17:07 原文链接

百度

百度的spider的user agent都会包含 Baiduspider 字符串。

google

google的spider的user agent都会包含 Googlebot 字符串。

相关资料：http://www.google.com/bot.html

soso

soso的spider的user agent都会包含 Sosospider 字符串

相关资料：http://help.soso.com/webspider.htm

sogou

sogou的spider的user agent都会包含 Sogou web spider 字符串

其他的也都差不多。。。可以自行查看下网站的access log。

如何通过php程序控制 spider 的行为？

通过 $_SERVER["HTTP_USER_AGENT"] 获取来访者的 user agent，然后判断是否含有相应的搜索引擎spider的特定字符串，再采取后续动作就可以了。

$user_agent = $_SERVER["HTTP_USER_AGENT"];

if ( eregi("Googlebot",$user_agent) )

{

// is google\'s spider access, you can do something for it~

}

同分类推荐文章

美团 BI 在指标平台和分析引擎上的探索和实践（2026-06-15 09:05:33）
把 Next.js 拆成壳：LobeHub 后端迁移 Hono 实录（2026-06-10 19:27:40）
把 MinIO 示例迁到 OtterIO：使用、部署与迁移验证（2026-06-09 22:34:00）

查看更多后端文章 →

建议继续学习

浅析http协议、cookies和session机制、浏览器缓存（累计阅读 17,348）
从输入 URL 到页面加载完成的过程中都发生了什么事情？（累计阅读 15,841）
libcurl的使用总结（二）（累计阅读 15,025）
使用python爬虫抓站的一些技巧总结：进阶篇（累计阅读 13,217）
HTTP协议Keep-Alive模式详解（累计阅读 12,033）
你必须了解的Session的本质（累计阅读 11,358）
curl 命令使用cookie （累计阅读 9,959）
淘宝搜索：定向抓取网页技术漫谈（累计阅读 9,465）
Hello! 404 （累计阅读 9,326）
解决 nginx 反向代理网页首尾出现神秘字符的问题（累计阅读 9,045）