使用nginx限制蜘蛛的频繁抓取
上周玩客被百度蜘蛛给盯上了,百度蜘蛛对玩客的抓取频率增加了5倍。百度蜘蛛抓取量骤增,导致服务器负载很高。最终用nginx的ngx_http_limit_req_module模块限制了百度蜘蛛的抓取频率。每分钟允许百度蜘蛛抓取200次,多余的抓取请求返回503。
nginx的配置:
#全局配置
limit_req_zone $anti_spider zone=anti_spider:60m rate=200r/m;
#某个server中
limit_req zone=anti_spider burst=5 nodelay;
if ($http_user_agent ~* “baiduspider”) {
set $anti_spider $http_user_agent;
}
参数说明:
指令linit_req_zone 中的rate=200r/m 表示每分钟只能处理200个请求。
指令limit_req 中的burst=5 表示最大并发为5。即同一时间只能同时处理5个请求。
指令limit_req 中的 nodelay 表示当已经达到burst值时,再来新请求时,直接返回503
IF部分用于判断是否是百度蜘蛛的user agent。如果是,就对变量$anti_spider赋值。这样就做到了只对百度蜘蛛进行限制了。
详细的参数说明,可以查看官方文档。
http://nginx.org/en/docs/http/ngx_http_limit_req_module.html#limit_req_zone
这个模块对请求的限制采用了漏桶算法。
漏桶算法详见 http://baike.baidu.com/view/2054741.htm
相关代码请查看nginx源码文件 src/http/modules/ngx_http_limit_req_module.c
代码的核心部分是ngx_http_limit_req_lookup 方法。
建议继续学习:
- 配置Nginx+uwsgi更方便地部署python应用 (阅读:105397)
- 搜狐闪电邮箱的 Nginx/Postfix 使用模式 (阅读:32520)
- 解析nginx负载均衡 (阅读:14504)
- Nginx模块开发入门 (阅读:9868)
- 检查nginx配置,重载配置以及重启的方法 (阅读:9091)
- Cacti 添加 Nginx 监控 (阅读:8915)
- Nginx+FastCgi+Php 的工作机制 (阅读:8846)
- nginx的配置文件 (阅读:8820)
- 奇怪的 Nginx 的 upstream timed out 引起响应 502 (阅读:8137)
- 解决IE6从Nginx服务器下载图片不Cache的Bug (阅读:7097)
扫一扫订阅我的微信号:IT技术博客大学习
- 作者:信海龙 来源: 博学无忧
- 标签: nginx 蜘蛛
- 发布时间:2014-11-28 23:06:17
- [55] Oracle MTS模式下 进程地址与会话信
- [55] IOS安全–浅谈关于IOS加固的几种方法
- [54] 如何拿下简短的域名
- [53] android 开发入门
- [52] Go Reflect 性能
- [52] 图书馆的世界纪录
- [49] 读书笔记-壹百度:百度十年千倍的29条法则
- [48] 【社会化设计】自我(self)部分――欢迎区
- [38] 程序员技术练级攻略
- [32] 视觉调整-设计师 vs. 逻辑