IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

搜索引擎爬虫蜘蛛的USERAGENT收集

这一技客 2010-01-15 14:47:25 累计浏览 3,585 次
本机暂存

百度爬虫
    * Baiduspider+(+http://www.baidu.com/search/spider.htm”)

google爬虫
    * Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    * Googlebot/2.1 (+http://www.googlebot.com/bot.html)
    * Googlebot/2.1 (+http://www.google.com/bot.html)

雅虎爬虫(分别是雅虎中国和美国总部的爬虫)
    *Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html”)
    *Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp”)

新浪爱问爬虫
    *iaskspider/2.0(+http://iask.com/help/help_index.html”)
    *Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)

搜狗爬虫
    *Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)
    *Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)

网易爬虫
    *Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/”; )

MSN爬虫
    *msnbot/1.0 (+http://search.msn.com/msnbot.htm”)

同分类推荐文章

  1. 等了十年的 Go 链式管道,终于来了:seq 让你像写 Scala 一样写 Go (2026-06-25 18:38:18)
  2. Go 实验特性详解 (2026-06-21 10:05:27)
  3. amd64 微架构级别对 Go 程序性能提升多少? (2026-06-21 09:38:49)

查看更多 后端 文章 →

建议继续学习

  1. 浅析http协议、cookies和session机制、浏览器缓存 (累计阅读 17,446)
  2. 从输入 URL 到页面加载完成的过程中都发生了什么事情? (累计阅读 15,933)
  3. libcurl的使用总结(二) (累计阅读 15,083)
  4. 使用python爬虫抓站的一些技巧总结:进阶篇 (累计阅读 13,302)
  5. HTTP协议Keep-Alive模式详解 (累计阅读 12,105)
  6. 你必须了解的Session的本质 (累计阅读 11,441)
  7. curl 命令使用cookie (累计阅读 10,016)
  8. 淘宝搜索:定向抓取网页技术漫谈 (累计阅读 9,531)
  9. Hello! 404 (累计阅读 9,385)
  10. 解决 nginx 反向代理网页首尾出现神秘字符的问题 (累计阅读 9,097)