防采集系统的设计
浏览:3089次 出处信息
网络上越来越多的站长在使用采集系统进行网站采集。如何应对这样的采集成为一个很棘手的问题。先前写过一篇怎样防止网站被采集的的文章,但是中间提到的方法感觉不是非常的适用。
正常的搜索引擎抓取页面可以使用robots.txt来进行屏蔽,比如万恶的雅虎,流量和不带过来,确是爬的最勤快的,大量的暂用服务器资源。
防采集主要防止的是那些除搜索引擎外的抓取行为,即除搜索引擎外的非人为访问。防止采集的主要原因有:
防止采集最大的难点是如何才能精确打击,即不影响搜索引擎采集的情况下,把那些“小偷”屏蔽掉。通常采用以下两种方式进行组合过滤
接下来就是整体系统的设计了:

建议继续学习:
- anti spam杂谈 (阅读:5556)
- 定向抓取漫谈 (阅读:5077)
- php实现百度音乐采集下载 (阅读:5078)
- cURL基础教程 (阅读:4536)
- PHP采集类:Snoopy.class.php (阅读:3629)
- 变量引用可提供执行速度 (阅读:3447)
- oracle数据库的CPU/IO信息采集 (阅读:3371)
- MySQL server has gone away解决办法 (阅读:2455)
QQ技术交流群:445447336,欢迎加入!
扫一扫订阅我的微信号:IT技术博客大学习
扫一扫订阅我的微信号:IT技术博客大学习
<< 前一篇:从开放平台建设者角度对应用开发者的一点架构建议(1)
后一篇:一淘网的系统架构 >>
文章信息
- 作者:标点符 来源: 标点符
- 标签: 反垃圾 采集
- 发布时间:2011-07-09 22:33:08
建议继续学习
近3天十大热文
-
[866] WordPress插件开发 -- 在插件使用 -
[136] 解决 nginx 反向代理网页首尾出现神秘字 -
[58] 整理了一份招PHP高级工程师的面试题 -
[56] 分享一个JQUERY颜色选择插件 -
[54] 用 Jquery 模拟 select -
[54] CloudSMS:免费匿名的云短信 -
[54] 如何保证一个程序在单台服务器上只有唯一实例( -
[54] Innodb分表太多或者表分区太多,会导致内 -
[52] 全站换域名时利用nginx和javascri -
[50] jQuery性能优化指南
