技术头条 - 一个快速在微博传播文章的方式     搜索本站
您现在的位置首页 --> 系统架构 --> 防采集系统的设计

防采集系统的设计

浏览:2519次  出处信息

    网络上越来越多的站长在使用采集系统进行网站采集。如何应对这样的采集成为一个很棘手的问题。先前写过一篇怎样防止网站被采集的的文章,但是中间提到的方法感觉不是非常的适用。

    正常的搜索引擎抓取页面可以使用robots.txt来进行屏蔽,比如万恶的雅虎,流量和不带过来,确是爬的最勤快的,大量的暂用服务器资源。

    防采集主要防止的是那些除搜索引擎外的抓取行为,即除搜索引擎外的非人为访问。防止采集的主要原因有:

  • 影响服务器的性能,消耗服务器流量。
  • 影响网站数据的统计,比如流量统计。
  • 自己辛苦整理的资料不希望被其他人盗用。
  •     防止采集最大的难点是如何才能精确打击,即不影响搜索引擎采集的情况下,把那些“小偷”屏蔽掉。通常采用以下两种方式进行组合过滤

  • 过滤规则,主要是通过用户IP地址,User-Agent进行屏蔽。
  • 频度控制,主要是限制时间和次数,如一定时间内的请求量不能超过一定的阀值。
  •     接下来就是整体系统的设计了:

        

  • 总体设计:旁路统计、规则封禁
  • 访问控制服务器:维护规则库、按规则进行统计、为系统生成封禁列表
  • 系统服务端:转发请求、同步封禁列表、实施访问控制。
  • 建议继续学习:

    1. anti spam杂谈    (阅读:4867)
    2. 定向抓取漫谈    (阅读:4371)
    3. php实现百度音乐采集下载    (阅读:4127)
    4. cURL基础教程    (阅读:3853)
    5. PHP采集类:Snoopy.class.php    (阅读:3072)
    6. 变量引用可提供执行速度    (阅读:2881)
    7. oracle数据库的CPU/IO信息采集    (阅读:2567)
    8. MySQL server has gone away解决办法    (阅读:1824)
    QQ技术交流群:445447336,欢迎加入!
    扫一扫订阅我的微信号:IT技术博客大学习
    © 2009 - 2024 by blogread.cn 微博:@IT技术博客大学习

    京ICP备15002552号-1