快速构建实时抓取集群
定向抓取有很多的应用场景,比如B2C商品的抓取,点评的抓取等等。在本文提到的系统里面,主要使用linux+mysql+redis+django+scrapy+webkit,其中scrapy+webkit作为抓取端,redis作为链接库存储,mysql作为网页信息存储,django作为爬虫管理界面,快速实现分布式抓取系统的原型。
共 1 篇相关文章
定向抓取有很多的应用场景,比如B2C商品的抓取,点评的抓取等等。在本文提到的系统里面,主要使用linux+mysql+redis+django+scrapy+webkit,其中scrapy+webkit作为抓取端,redis作为链接库存储,mysql作为网页信息存储,django作为爬虫管理界面,快速实现分布式抓取系统的原型。