Observer专栏杂记 -- IT技术博客大学习 -- 共学习共进步！

• 使用python/casperjs编写终极爬虫-客户端App的抓取

随着移动互联网的发展，现在写web和我三年前刚开始写爬虫的时候已经改变了太多。特别是在node以及javascript/ruby社区的努力下，以往“服务器端”做的事情都慢慢搬到了“浏览器”来实现，最极端的例子可能是meteor了，写web程序无需划分前端后端的时代已经到来了。。。

• 服务器间同步/镜像/备份配置备忘录

因为上了独服，就不能依靠VPS供应商的备份了，其实大部分经济型VPS都没备份的，但是人家硬盘起码是RAID1+0，就算物理故障了只要不太严重不是电脑爆炸硬盘全毁之类的还是能修复的。独立服务器就不一样了，为了省钱不上RAID，不租备份，所有备份都得自己折腾了，这些配置折腾起来实在烦人，还是得记下来省下以后再搜索的功夫。

• 使用python/casperjs编写终极爬虫-客户端App的抓取

缘起随着移动互联网的发展，现在写web和我三年前刚开始写爬虫的时候已经改变了太多。特别是在node以及javascript/ruby社区的努力下，以往“服务器端”做的事情都慢慢搬到了“浏览器”来实现，最极端的例子可能是meteor了，写web程序无需划分前端后端的时代已经到来了。。。在这一方面，Google一向是最激进的。纵观Google目前的产品线，社交的Google Plus，网站分析的Google Analytics，Google目前赖以生存的Google Adwords等，如果想下载源码，用ElementTree来解析网页，那什么都得不到，因为Google的数据都是通过Ajax调用经过数据混淆处理的数据，然后用JavaScript进行解析渲染到页面上的。

• 使用python爬虫抓站的一些技巧总结：进阶篇

以前写过一篇使用python爬虫抓站的一些技巧总结，总结了诸多爬虫使用的方法；那篇东东现在看来还是挺有用的，但是当时很菜（现在也菜，但是比那时进步了不少），很多东西都不是很优，属于”只是能用”这么个层次。这篇进阶篇打算把“能用”提升到“用得省事省心”这个层次。

• 服务器间同步/镜像/备份配置备忘录

因为上了独服，就不能依靠VPS供应商的备份了，其实大部分经济型VPS都没备份的，但是人家硬盘起码是RAID1+0，就算物理故障了只要不太严重不是电脑爆炸硬盘全毁之类的还是能修复的。独立服务器就不一样了，为了省钱不上RAID，不租备份，所有备份都得自己折腾了，这些配置折腾起来实在烦人，还是得记下来省下以后再搜索的功夫。

• 防DDoS脚本 in python

之所以被DDoS，并不是因为惹了疯狗被追着咬，而是因为VC悲剧之后流量全到simplecd来了。不仅如此，一些笨蛋们在抓站，一些笨蛋们在用迅雷下载，100Mbps的端口居然已经满负荷运作十几个小时了，这是什么概念？100Mbps满负荷1天，流量就是1000G，这样下去不用多久，我就可以等着上百刀的罚单了，泪飙。此外，100Mbps的速度使得硬盘都快转不动了，严重拖累网站的响应速度，卡得我欲仙欲死啊真是。想当年VC挂了一天，被抓站的家伙们搞得一个礼拜半残废状态（其中那些家伙包括我在内，汗）。simplecd就更支撑不了了。事实上这种人肉DDoS比正常的DDoS更加难以区分和预防，不过也就只能尽人事，听天命了，参考一些文章写了个python的防止DDoS的脚本，加入cron每分钟执行即可。

• 一年米国VPS使用经验总结

估计以后也很少会再用VPS，整理一下我用过的所有VPS吧。申明：所有网速评价都是基于米国-米国(apt-get)、米国-澳洲(filezilla下载，VPN)的网速，到国内的网速我没有条件测试。按时间顺序来： 1.mediatemple dv base: 50刀，20G硬盘，512M内存，1T流量，openvz类似测试：性能unixbench4.1.2-wht得分为30分，限制inode数，限制tcp连接300，限制一堆使用感受：一有点流量就挂了，内存完全用不到512M，在kmem里面限死了，能看到1G内存，但是永远别想用到哪怕512M；服务烂，support不太懂技术，只会敷衍，虽然是大公司，但是平均等候ticket时间还是有将近8小时，这对一个50刀的plan来说不能忍。

• 网站广告投放策略研究 (一) 轮播以及效用最大化

首先科普一下目前互联网广告的类型，大体都有CPC,CPM,CPA,CPS,CPV这几种。 CPC就是按点击(Click)计算，CPM就是按弹窗(Mxxx?)计算，CPA/CPS一个是按注册一个是按销售计算，CPV则是按显示次数计算。于是CPC,CPA,CPS这种根据网站访客行为来获得收益的是一类，而CPM和CPV这种只和网站流量相关的则是另一类。可想而知，CPC，CPA，CPS的效果要分析访客群体，点击习惯等诸多要素来进行调整，非一蹴而就，这篇文章中我主要想研究怎么从流...

• 使用python爬虫抓站的一些技巧总结：进阶篇

以前写过一篇使用python爬虫抓站的一些技巧总结，总结了诸多爬虫使用的方法；那篇东东现在看来还是挺有用的，但是当时很菜（现在也菜，但是比那时进步了不少），很多东西都不是很优，属于”只是能用”这么个层次。这篇进阶篇打算把“能用”提升到“用得省事省心”这个层次。一、gzip/deflate支持现在的网页普遍支持gzip压缩，这往往可以解决大量传输时间，以VeryCD的主页为例，未压缩版本247K，压缩了以后45K，为原来...

• 防DDoS脚本 in python

这篇博可以说连开场白都可以省掉了，之所以被DDoS，并不是因为惹了疯狗被追着咬，而是因为VC悲剧之后流量全到simplecd来了。不仅如此，一些笨蛋们在抓站，一些笨蛋们在用迅雷下载，100Mbps的端口居然已经满负荷运作十几个小时了，这是什么概念？100Mbps满负荷1天，流量就是1000G，这样下去不用多久，我就可以等着上百刀的罚单了，泪飙。此外，100Mbps的速度使得硬盘都快转不动了，严重拖累网站的响应速度，卡得我欲仙欲死啊真是...

• 服务器间同步/镜像/备份配置备忘录

因为上了独服，就不能依靠VPS供应商的备份了，其实大部分经济型VPS都没备份的，但是人家硬盘起码是RAID1+0，就算物理故障了只要不太严重不是电脑爆炸硬盘全毁之类的还是能修复的。独立服务器就不一样了，为了省钱不上RAID，不租备份，所有备份都得自己折腾了，这些配置折腾起来实在烦人，还是得记下来省下以后再搜索的功夫。一、同步服务器的选择备份服务器不需要好的CPU或者内存，只要求硬盘大，网络好就行了，对我来说100G以上...

• 用javascript来摧毁你所访问的网站

哈哈，乱逛到一个很有趣的js脚本，点下面的链接，就会出现一个三角形的小灰机，按空格可发子弹，然后会把路上碰上的页面元素给爆掉，老外真是有创意啊，呵呵。把上面这个链接拖到收藏夹里面，然后在看不顺眼的网站点一下收藏链接，然后果断华丽地摧毁之，哇哈哈。

• 30分钟3300%性能提升――python+memcached网页优化小记

优化过语句1和语句2后，首页的平均生成时间已经降低到0.02秒，和discuz一个量级了；再经过语句3的优化，最终结果是首页生成时间降低到了0.006秒左右，经过memcached寥寥几行代码的优化，性能提高了3300%。终于可以挺直腰板来看Discuz了：）
说memcached是妖孽，并不是因为memcached应用了之后性能狂升――这本是意料之中的事情，不这样反而才奇怪――而是因为我基本上没花多少时间就实现了这么妖孽的效果，至少我花的时间并不比写这篇blog的时间多。那么方便的使用方法和那么显著的性能提升状况真是让人咋舌。

• 配置Nginx＋uwsgi更方便地部署python应用

个人觉得php最方便的就是deployment了，只要把php文件丢到支持php的路径里面，然后访问那个路径就能使用了；无论给主机添加多少php应用，只要把目录改好就没你的事了，完全不用关心php-cgi运行得如何，deployment极为方便。反观python，部属起来真是头痛，常见的部署方法有： fcgi：用spawn-fcgi或者框架自带的工具对各个project分别生成监听进程，然后和http服务互动 wsgi：利用http服务的mod_wsgi模块来跑各个project 无论哪种...

• SQL vs NoSQL：数据库并发写入性能比拼

最近听说了很多关于NoSQL的新闻，比如之前Sourceforge改用MongoDB，Digg改用Cassandra等等。再加上之前做数据库比较时有人推荐我mongodb，所以也搜索了一下NoSQL，觉得NoSQL可能真的是未来的趋势。 ` NoSQL vs SQL 传统SQL数据库为了实现ACID(atomicity, consistency, isolation, durability)，往往需要频繁应用文件锁，这使得其在现代的web2.0应用中越来越捉襟见肘。现在SNS网站每一个点击都是一条/多条查询，对数据库写的并...