搜索引擎spider整理
阅读: 104 评论: 0 作者: rethink 发表于 2009-11-09 17:07 原文链接
百度
百度的spider的user agent都会包含 Baiduspider 字符串。
相关资料:http://www.baidu.com/search/spider.htm
google的spider的user agent都会包含 Googlebot 字符串。
相关资料:http://www.google.com/bot.html
soso
soso的spider的user agent都会包含 Sosospider 字符串
相关资料:http://help.soso.com/webspider.htm
sogou
sogou的spider的user agent都会包含 Sogou web spider 字符串
相关资料:http://www.sogou.com/docs/help/webmasters.htm#07
其他的也都差不多。。。可以自行查看下网站的access log。
如何通过php程序控制 spider 的行为?
通过 $_SERVER["HTTP_USER_AGENT"] 获取来访者的 user agent,然后判断是否含有相应的搜索引擎spider的特定字符串,再采取后续动作就可以了。
$user_agent = $_SERVER["HTTP_USER_AGENT"];
if ( eregi("Googlebot",$user_agent) )
{
// is google\'s spider access, you can do something for it~
}
?>
扫一扫订阅我的微信号:IT技术博客大学习
- 作者:rethink 来源: 博客园-rethink log
- 标签: spider
- 发布时间:2009-11-18 13:42:01
-
[914] WordPress插件开发 -- 在插件使用 -
[135] 解决 nginx 反向代理网页首尾出现神秘字 -
[54] 整理了一份招PHP高级工程师的面试题 -
[53] 如何保证一个程序在单台服务器上只有唯一实例( -
[52] 海量小文件存储 -
[52] 全站换域名时利用nginx和javascri -
[52] Innodb分表太多或者表分区太多,会导致内 -
[51] 用 Jquery 模拟 select -
[50] CloudSMS:免费匿名的云短信 -
[48] 分享一个JQUERY颜色选择插件