IT技术博客大学习 共学习 共进步

搜索引擎爬虫蜘蛛的USERAGENT收集

这一技客 2010-01-15 14:47:25 累计浏览 3,520 次
本机暂存

百度爬虫
    * Baiduspider+(+http://www.baidu.com/search/spider.htm”)

google爬虫
    * Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    * Googlebot/2.1 (+http://www.googlebot.com/bot.html)
    * Googlebot/2.1 (+http://www.google.com/bot.html)

雅虎爬虫(分别是雅虎中国和美国总部的爬虫)
    *Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html”)
    *Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp”)

新浪爱问爬虫
    *iaskspider/2.0(+http://iask.com/help/help_index.html”)
    *Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)

搜狗爬虫
    *Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)
    *Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)

网易爬虫
    *Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/”; )

MSN爬虫
    *msnbot/1.0 (+http://search.msn.com/msnbot.htm”)

建议继续学习

  1. 怎样用好Google进行搜索 (累计阅读 15,724)
  2. 淘宝搜索:定向抓取网页技术漫谈 (累计阅读 9,449)
  3. 简析搜索引擎中网络爬虫的搜索策略 (累计阅读 7,361)
  4. 几种常见的基于Lucene的开源搜索解决方案对比 (累计阅读 6,091)
  5. 基于用户行为分析的搜索引擎自动性能评价 (累计阅读 5,696)
  6. 用Sphinx快速搭建站内搜索功能 (累计阅读 5,647)
  7. 百度搜索URL参数解析 (累计阅读 5,643)
  8. Xapian搜索体系结构 (累计阅读 5,248)
  9. 附近地点搜索初探 (累计阅读 5,209)
  10. 互联网网站的反爬虫策略浅析 (累计阅读 5,099)