IT技术博客大学习 共学习 共进步
全部 移动开发 后端 数据库 AI 算法 安全 DevOps 前端 设计 开发者

搜索引擎爬虫蜘蛛的USERAGENT收集

这一技客 2010-01-15 14:47:25 累计浏览 3,545 次
本机暂存

百度爬虫
    * Baiduspider+(+http://www.baidu.com/search/spider.htm”)

google爬虫
    * Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    * Googlebot/2.1 (+http://www.googlebot.com/bot.html)
    * Googlebot/2.1 (+http://www.google.com/bot.html)

雅虎爬虫(分别是雅虎中国和美国总部的爬虫)
    *Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html”)
    *Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp”)

新浪爱问爬虫
    *iaskspider/2.0(+http://iask.com/help/help_index.html”)
    *Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)

搜狗爬虫
    *Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)
    *Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)

网易爬虫
    *Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/”; )

MSN爬虫
    *msnbot/1.0 (+http://search.msn.com/msnbot.htm”)

同分类推荐文章

  1. 美团 BI 在指标平台和分析引擎上的探索和实践 (2026-06-15 09:05:33)
  2. 把 Next.js 拆成壳:LobeHub 后端迁移 Hono 实录 (2026-06-10 19:27:40)
  3. 把 MinIO 示例迁到 OtterIO:使用、部署与迁移验证 (2026-06-09 22:34:00)

查看更多 后端 文章 →

建议继续学习

  1. 浅析http协议、cookies和session机制、浏览器缓存 (累计阅读 17,348)
  2. 从输入 URL 到页面加载完成的过程中都发生了什么事情? (累计阅读 15,840)
  3. libcurl的使用总结(二) (累计阅读 15,024)
  4. 使用python爬虫抓站的一些技巧总结:进阶篇 (累计阅读 13,217)
  5. HTTP协议Keep-Alive模式详解 (累计阅读 12,033)
  6. 你必须了解的Session的本质 (累计阅读 11,358)
  7. curl 命令使用cookie (累计阅读 9,959)
  8. 淘宝搜索:定向抓取网页技术漫谈 (累计阅读 9,465)
  9. Hello! 404 (累计阅读 9,326)
  10. 解决 nginx 反向代理网页首尾出现神秘字符的问题 (累计阅读 9,045)