防采集系统的设计

标点符 2011-07-09 22:33:08 浏览 3,402 次

标签反垃圾采集

网络上越来越多的站长在使用采集系统进行网站采集。如何应对这样的采集成为一个很棘手的问题。先前写过一篇怎样防止网站被采集的的文章，但是中间提到的方法感觉不是非常的适用。

正常的搜索引擎抓取页面可以使用robots.txt来进行屏蔽，比如万恶的雅虎，流量和不带过来，确是爬的最勤快的，大量的暂用服务器资源。

防采集主要防止的是那些除搜索引擎外的抓取行为，即除搜索引擎外的非人为访问。防止采集的主要原因有：

影响服务器的性能，消耗服务器流量。

影响网站数据的统计，比如流量统计。

自己辛苦整理的资料不希望被其他人盗用。

防止采集最大的难点是如何才能精确打击，即不影响搜索引擎采集的情况下，把那些“小偷”屏蔽掉。通常采用以下两种方式进行组合过滤

过滤规则，主要是通过用户IP地址，User-Agent进行屏蔽。

频度控制，主要是限制时间和次数，如一定时间内的请求量不能超过一定的阀值。

接下来就是整体系统的设计了：

总体设计：旁路统计、规则封禁

访问控制服务器：维护规则库、按规则进行统计、为系统生成封禁列表

系统服务端：转发请求、同步封禁列表、实施访问控制。

建议继续学习