搜索引擎爬虫蜘蛛的USERAGENT收集

这一技客 2010-01-15 14:47:25 累计浏览 3,586 次

本机暂存

内容概览

这篇讲的是一个非常实用的技术资料整理：作者系统梳理了国内主流的搜索引擎如百度、搜狗、必应等所使用爬虫（Spider）的User-Agent标识字符串。

文章的核心在于一个精心编译的对照表。对于每个搜索引擎，它都明确列出了其爬虫可能携带的多种UA格式，比如百度蜘蛛就包括了Baiduspider的不同变体。这解决了网站管理员在服务器日志中常见的一个困惑：如何准确区分流量究竟来自哪个搜索引擎的爬虫，还是伪装成爬虫的异常访问。尤其在分析网站SEO表现或排查异常流量时，正确的识别至关重要。

相比于分散在各搜索引擎官方文档中寻找，这份集中整理的资料能让你快速比对和查证。无论是配置防火墙规则、编写日志分析脚本，还是单纯为了看懂服务器日志，它都提供了一个方便的查阅起点。

百度爬虫
* Baiduspider+(+http://www.baidu.com/search/spider.htm”)

google爬虫
    * Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    * Googlebot/2.1 (+http://www.googlebot.com/bot.html)
    * Googlebot/2.1 (+http://www.google.com/bot.html)

雅虎爬虫（分别是雅虎中国和美国总部的爬虫）
*Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html”)
*Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp”)

新浪爱问爬虫
*iaskspider/2.0(+http://iask.com/help/help_index.html”)
*Mozilla/5.0 (compatible; iaskspider/1.0; MSIE 6.0)

搜狗爬虫
*Sogou web spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)
*Sogou Push Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07″)

网易爬虫
*Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/”; )

MSN爬虫
*msnbot/1.0 (+http://search.msn.com/msnbot.htm”)

同分类推荐文章

等了十年的 Go 链式管道，终于来了：seq 让你像写 Scala 一样写 Go （2026-06-25 18:38:18）
Go 实验特性详解（2026-06-21 10:05:27）
amd64 微架构级别对 Go 程序性能提升多少？（2026-06-21 09:38:49）

查看更多后端文章 →

建议继续学习

浅析http协议、cookies和session机制、浏览器缓存（累计阅读 17,446）
从输入 URL 到页面加载完成的过程中都发生了什么事情？（累计阅读 15,933）
libcurl的使用总结（二）（累计阅读 15,083）
使用python爬虫抓站的一些技巧总结：进阶篇（累计阅读 13,302）
HTTP协议Keep-Alive模式详解（累计阅读 12,105）
你必须了解的Session的本质（累计阅读 11,442）
curl 命令使用cookie （累计阅读 10,018）
淘宝搜索：定向抓取网页技术漫谈（累计阅读 9,531）
Hello! 404 （累计阅读 9,385）
解决 nginx 反向代理网页首尾出现神秘字符的问题（累计阅读 9,098）