搜索引擎爬虫蜘蛛的USERAGENT收集
百度爬虫
* Baiduspider+(+http://www.baidu.com/search/spider.htm”)
google爬虫
* Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
* Googlebot/2.1 (+http://www.googlebot.com/bot.html)
* Googlebot/2.1 (+http://www.google.com/bot.html)
雅虎爬虫(分别是雅虎中国和美国总部的爬虫)
*Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html”)
*Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp”)
新浪爱问爬虫
*iaskspider/2.0(+http://iask.com/help/help_index.html”)
*Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)
搜狗爬虫
*Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)
*Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)
网易爬虫
*Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/”; )
MSN爬虫
*msnbot/1.0 (+http://search.msn.com/msnbot.htm”)
建议继续学习:
- 怎样用好Google进行搜索 (阅读:15318)
- 淘宝搜索:定向抓取网页技术漫谈 (阅读:8941)
- 简析搜索引擎中网络爬虫的搜索策略 (阅读:6812)
- 几种常见的基于Lucene的开源搜索解决方案对比 (阅读:5531)
- 基于用户行为分析的搜索引擎自动性能评价 (阅读:5206)
- 百度搜索URL参数解析 (阅读:5165)
- 用Sphinx快速搭建站内搜索功能 (阅读:5142)
- Xapian搜索体系结构 (阅读:4786)
- 附近地点搜索初探 (阅读:4786)
- 互联网网站的反爬虫策略浅析 (阅读:4727)
扫一扫订阅我的微信号:IT技术博客大学习
- 作者:kekehu 来源: 这一技客
- 标签: 搜索 蜘蛛
- 发布时间:2010-01-15 14:47:25
-
[881] WordPress插件开发 -- 在插件使用 -
[136] 解决 nginx 反向代理网页首尾出现神秘字 -
[57] 整理了一份招PHP高级工程师的面试题 -
[54] Innodb分表太多或者表分区太多,会导致内 -
[54] 分享一个JQUERY颜色选择插件 -
[54] 用 Jquery 模拟 select -
[54] 如何保证一个程序在单台服务器上只有唯一实例( -
[52] jQuery性能优化指南 -
[52] CloudSMS:免费匿名的云短信 -
[51] 全站换域名时利用nginx和javascri
