对爬虫的限制

崔凯 2014-11-23 21:10:09 累计浏览 2,975 次

本机暂存

内容概览

这篇讲的是开发者在资源受限的云平台上，如何应对爬虫造成的流量激增问题。作者起初将文件迁移到七牛云存储后，发现一天就消耗了2GB流量，远超预期。分析SAE应用日志后发现，大量请求来自搜索引擎爬虫。

为了解决这个问题，作者采取了一系列递进式的应对措施。首先用robots.txt屏蔽了如AhrefsBot、Ezooms等国外爬虫。在robots规则生效前，通过SAE的应用防火墙直接屏蔽具体IP地址，或者更高效地封禁整个IP段。此外，还利用config.yaml的配置，实现了对特定目录的访问控制，并将未遵守规则的爬虫引导至robots.txt。对于单个PHP文件，则编写了简单的代码检测User-Agent并返回空白页。

最终，这些措施有效遏制了爬虫对服务器资源的过度消耗，文章末尾的SAE输出流量图也直观展示了问题解决后的平稳状态。整个过程体现了从问题发现、日志分析到多手段综合处置的典型排查思路。

不当家不知道柴米贵

以前用彪悍的服务器用习惯了，还真没有资源窘迫的时候

这个月还早，显然现有资源已经撑不到月底了

sae-forecast

先把常用的600多K文件挪到了七牛的云存储上

结果一天就跑了2G的流量，这么算再跑5天就废了

qiniu-overview

得，偷懒不成，老老实实分析日志

搜索spider，每页50条，竟然有好多好多页的记录：

sae-applog

看来是被各家的爬虫给吃掉了。

解决方法

先用robots.txt屏蔽掉国外的蜘蛛：

User-Agent: AhrefsBot

Disallow: /

User-Agent: Ezooms

Disallow: /

robots的生效需要时间，在生效之前，可以用sae的应用防火墙屏蔽一些IP(非sae用户参考此文)

sae-firewall

不过防火墙是全局的，如果想针对某一个目录做限定，可以通过config.yaml来实现。

- hostaccess: if(path ~ "/xxx/xxxx/") deny "123.125.71.12 , 123.125.71.31 , 123.125.71.47 , 123.125.71.95 , 220.181.108.76 , 220.181.108.87, 220.181.108.123, 220.181.108.168 , 220.181.108.105 , 220.181.108.109 , 220.181.108.156 , 220.181.108.160 , 220.181.108.99 , 220.181.108.115 , 220.181.108.139 , 220.181.108.143 , 220.181.108.144 , 220.181.108.163 , 220.181.108.159 , 183.60.212.134 , 183.60.213.39 , 183.60.213.29 , 183.60.214.119"

如上所示，一个IP，一个IP的填毕竟太烦了(还要注意空格！)

时间不够的童鞋(其实是懒)直接干掉整个ip段了事

- hostaccess: if(path ~ "/xxx/xxxx/") deny "123.125.71.0/24 , 220.181.108.0/24 , 183.60.214.0/24 , 183.60.215.0/24"

然后再对漏网之鱼，跳回robots.txt，让他们好好补课。

- rewrite: if(path ~ "/xxx/xxx/" && in_header["User-Agent"] ~ "AhrefsBot" ) goto "http://uicss.cn/robots.txt"

如果是单个的php文件，懒得改config.yaml的，也可以用php搞，返回空白页：

$useragent=$_SERVER['HTTP_USER_AGENT'];

if(substr_count($useragent,"spider")){exit();}

不结尾了，写结尾太麻烦。

总之，问题解决了。

sae-outbytes

同分类推荐文章

等了十年的 Go 链式管道，终于来了：seq 让你像写 Scala 一样写 Go （2026-06-25 18:38:18）
Go 实验特性详解（2026-06-21 10:05:27）
amd64 微架构级别对 Go 程序性能提升多少？（2026-06-21 09:38:49）

查看更多后端文章 →

建议继续学习

用Hyer来进行网站的抓取（累计阅读 158,254）
抓取网页内容生成Kindle电子书（累计阅读 9,493）
腾讯后台开发技术总监浅谈过载保护小心雪崩效应（累计阅读 7,117）
PHP Simple HTML DOM Parser 是一个不错的html/xml分析类（累计阅读 7,091）
定向抓取漫谈（累计阅读 5,579）
请手动释放你的资源(Please release resources maunally) （累计阅读 5,329）
Kindle 电子书生成工具（累计阅读 5,128）
Ruby 解析 HTML (Nokogiri) （累计阅读 4,949）
新浪博客抓取程序(php) （累计阅读 4,713）
基于漏桶(Leaky bucket)与令牌桶(Token bucket)算法的流量控制（累计阅读 4,575）