真假百度蜘蛛的甄别

火丁笔记 2017-02-06 23:09:48 累计浏览 3,040 次

本机暂存

内容概览

这篇讲的是如何从海量访问日志中，揪出伪装成百度蜘蛛的非法爬虫。

问题在于，仅凭请求头里的User-Agent字段判断并不可靠。真正的解决方法，其实百度官方早就给出了：对所有自称Baiduspider的访问IP进行反向DNS查询，只有其域名以 *.baidu.com 或 *.baidu.jp 结尾的，才是正品。作者通过一段精巧的shell脚本，在历史日志中批量执行这个验证，最终成功提取出了数百个真实百度蜘蛛的IP地址。

为了让这份数据更实用，作者进一步将这些零散IP聚合成了几个24位的CIDR网段，比如 119.63.195.0/24 和 123.125.71.0/24。这样，日后只需一条简单的IP归属网段判断规则，就能实现精准放行或封禁，而不再需要逐个IP核查。文章不仅提供了可直接复用的验证脚本，也给出了最终可供运维配置的实用数据，对于网站安全与流量分析都有参考价值。

虽然百度的口碑并不好，但是不可否认的是，它一直是中文搜索中的霸主，所以对大多数中小型商业公司而言，都对百度蜘蛛的抓取行为予以放行，不过还有很多非法的蜘蛛，它们会通过 User-Agent 把自己伪装成百度蜘蛛，此时如果单纯以 User-Agent 来判断是否是百度蜘蛛就不合适了。虽然网上能找到很多现成的百度蜘蛛 IP 段，但是并不能确认它们的准确性，所以我打算自己收集，进而甄别真假百度蜘蛛。

实际上百度在常见问题解答中给出了甄别的方法：当有 User-Agent 是 Baiduspider 的请求时，我们可以通过 host 命令反解 ip 来判断，Baiduspider 的 hostname 以 *.baidu.com 或 *.baidu.jp 的格式命名，其它的则可以视为非法的蜘蛛。

注意：有的百度蜘蛛服务器并不遵守此规则，本案例中无视它们。

为什么百度不主动公布它自己的 IP 段呢？这样大家就方便了啊！答案多半是因为它怕别人封禁它，正所谓君子坦荡荡，小人常戚戚。比如 AWS 就公布了自己的 IP 段。

下面我们将尝试通过 log 历史数据来找出真正的百度蜘蛛，假设 log 格式如下；

1.2.3.4 … “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

简单 shell 即可实现，通过分析我的 log，最终可以拿到几百个百度蜘蛛的 IP：

shell> awk '$0 ~ "Baiduspider" {print $1}' /path/to/log \
    | xargs -n1 -I {} sh -c 'echo -en {} "\t"; host {}' \
    | awk '$NF ~ "\\.baidu\\.(com|jp)\\.$" {print $1}' > baidu

123.125.71.100
123.125.71.101
123.125.71.102
123.125.71.103
123.125.71.104
123.125.71.105
...

因为结果集太臃肿了，所以我拍脑袋做了一个 24 位的 CIDR 处理：

shell> awk -F. -v OFS=. '{print $1, $2, $3, "0/24"}' baidu | sort -u

119.63.195.0/24
119.63.198.0/24
123.125.66.0/24
123.125.71.0/24
180.76.15.0/24
180.76.5.0/24
220.181.108.0/24

如此结果集就精简多了，以后再有 User-Agent 是 Baiduspider 的请求进来时，我们只要简单判断一下 IP 是否在 CIDR 结果中即可，是则予以放行。当然，本文中百度蜘蛛的 IP 数据也可以用在别的地方，比如禁止百度访问。 </body></html>

同分类推荐文章

绿盟科技《APT组织研究年鉴》（2026 版）正式发布（2026-06-16 20:21:10）
【已复现】Linux内核Fragnesia权限提升漏洞（CVE-2026-46300）（2026-06-15 10:53:58）
企业文档安全最佳实践（二）：给文档上“身份证”——手动标密与智能自动标密（2026-06-12 17:18:33）

查看更多安全文章 →

建议继续学习

淘宝搜索：定向抓取网页技术漫谈（累计阅读 9,531）
简析搜索引擎中网络爬虫的搜索策略（累计阅读 7,443）
定向抓取漫谈（累计阅读 5,578）
用谷歌浏览器来当手机模拟器（累计阅读 5,306）
收集几个手机浏览器的User-agent （累计阅读 4,493）
搜索引擎爬虫蜘蛛的USERAGENT收集（累计阅读 3,584）
js不同浏览器检测（累计阅读 2,663）
搜索引擎spider整理（累计阅读 2,039）