技术头条 - 一个快速在微博传播文章的方式     搜索本站
您现在的位置首页 --> 系统运维 --> 使用nginx限制蜘蛛的频繁抓取

使用nginx限制蜘蛛的频繁抓取

浏览:3662次  出处信息

    上周玩客被百度蜘蛛给盯上了,百度蜘蛛对玩客的抓取频率增加了5倍。百度蜘蛛抓取量骤增,导致服务器负载很高。最终用nginx的ngx_http_limit_req_module模块限制了百度蜘蛛的抓取频率。每分钟允许百度蜘蛛抓取200次,多余的抓取请求返回503。

   nginx的配置:

   #全局配置

   limit_req_zone      $anti_spider    zone=anti_spider:60m    rate=200r/m;

   #某个server中

    limit_req zone=anti_spider burst=5 nodelay;

    if ($http_user_agent ~* “baiduspider”) {

       set $anti_spider $http_user_agent;

    }

   参数说明:

   指令linit_req_zone 中的rate=200r/m 表示每分钟只能处理200个请求。

   指令limit_req 中的burst=5 表示最大并发为5。即同一时间只能同时处理5个请求。

   指令limit_req 中的 nodelay 表示当已经达到burst值时,再来新请求时,直接返回503

   IF部分用于判断是否是百度蜘蛛的user agent。如果是,就对变量$anti_spider赋值。这样就做到了只对百度蜘蛛进行限制了。

   详细的参数说明,可以查看官方文档。

   http://nginx.org/en/docs/http/ngx_http_limit_req_module.html#limit_req_zone

   这个模块对请求的限制采用了漏桶算法。

   漏桶算法详见 http://baike.baidu.com/view/2054741.htm

   相关代码请查看nginx源码文件 src/http/modules/ngx_http_limit_req_module.c

   代码的核心部分是ngx_http_limit_req_lookup 方法。

建议继续学习:

  1. 配置Nginx+uwsgi更方便地部署python应用    (阅读:105533)
  2. 搜狐闪电邮箱的 Nginx/Postfix 使用模式    (阅读:32638)
  3. 解析nginx负载均衡    (阅读:14819)
  4. Nginx模块开发入门    (阅读:10093)
  5. 检查nginx配置,重载配置以及重启的方法    (阅读:9313)
  6. Cacti 添加 Nginx 监控    (阅读:9049)
  7. Nginx+FastCgi+Php 的工作机制    (阅读:9016)
  8. nginx的配置文件    (阅读:8994)
  9. 奇怪的 Nginx 的 upstream timed out 引起响应 502    (阅读:8487)
  10. 解决IE6从Nginx服务器下载图片不Cache的Bug    (阅读:7208)
QQ技术交流群:445447336,欢迎加入!
扫一扫订阅我的微信号:IT技术博客大学习
© 2009 - 2025 by blogread.cn 微博:@IT技术博客大学习

京ICP备15002552号-1