专题：抓取 -- IT技术博客大学习 -- 共学习共进步！

自从买了kindle后，总是想着如何最大效用发挥其效用。虽然多看上有很多书可以购买，网上也有很多免费的电子书，但是仍然有很多感兴趣的内容是以网页的形式存在的。例如O’Reilly Atlas就提供了诸多电子书，但是只提供免费的在线阅读；另外还有很多资料或文档都只有网页形式。于是就希望通过某种方法讲这些在线资料转为epub或mobi格式，以便在kindle上阅读。这篇文章介绍了如何借助calibre并编写少量代码来达到这个目的。

新浪博客抓取程序(php)

很多社区论坛或者博客在初期上线时候会遇到没有内容的尴尬，索性他们就会去把别人的优质的内容整理放到自己的平台上，这个时候就会请技术人员写采集程序程序来完成这件事情，以前我在一家公司做产品，同事说做一个可以换点米，所以就写了好几个，后来没有了消息，想程序放着也放着，不如拿出来分享，下载地址：sina blog 采集程序，这是借用专业采集类snoopy写的，因为很多博客会禁止采集，所以用snoopy伪装客户端很方便。数据采集过来要交给编辑去整理发布，采集这么多的数据如何做好分类就是一件很有意义的事情了，编辑可以用这些内容分类汇总，把没有价值的内容去掉，所以数据仅仅采集过来是不够的，接下来就会涉及到数据的分类汇总，对内容进行过滤识别。

快速构建实时抓取集群

定向抓取有很多的应用场景，比如B2C商品的抓取，点评的抓取等等。在本文提到的系统里面，主要使用linux+mysql+redis+django+scrapy+webkit，其中scrapy+webkit作为抓取端，redis作为链接库存储，mysql作为网页信息存储，django作为爬虫管理界面，快速实现分布式抓取系统的原型。

淘宝搜索：定向抓取网页技术漫谈

网络爬虫（web crawler）又称为网络蜘蛛（web spider）是一段计算机程序，它从互联网上按照一定的逻辑和算法抓取和下载互联网的网页,是搜索引擎的一个重要组成部分。一般的爬虫从一部分start url开始，按照一定的策略开始爬取，爬取到的新的url在放入到爬取队列之中，然后进行新一轮的爬取，直到抓取完毕为止。我们看一下crawler一般会遇到什么样的问题吧：抓取的网页量很大网页更新量也很大，一般的网站，比如新闻，电子商务网...

Python抓取框架：Scrapy的架构

最近在学Python，同时也在学如何使用python抓取数据，于是就被我发现了这个非常受欢迎的Python抓取框架Scrapy，下面一起学习下Scrapy的架构，便于更好的使用这个工具。一、概述下图显示了Scrapy的大体架构，其中包含了它的主要组件及系统的数据处理流程（绿色箭头所示）。下面就来一个个解释每个组件的作用及数据的处理过程。二、组件 1、Scrapy Engine（Scrapy引擎） Scrapy引擎是用来控制整个系统的数据处理流程，并进行事务...

cURL基础教程

cURL 是一个支持包括HTTP、FTP、TELNET等多种协议使用URL语法规定来传输文件和数据的工具。令人高兴的是，cURL（supported by PHP）被PHP支持。下面将介绍一些在PHP中使用cURL的方法。为什么要使用cURL $content = file_get_contents("http://www.biaodianfu.com"); // or $content = file("http://www.biaodianfu.com"); // or $content = readfile("http...

用Hyer来进行网站的抓取

Hyer是我个人用来抓取站点内容的一个工具包。后来慢慢地想做成一个开源软件，现在它注册在http://www.github.com/xurenlu/hyer/ 上。本文作为入门教程,以新华网作为例子，讲讲如何用hyer做网页抓取。请从这里http://github.com/xurenlu/hyer/downloads下载hyer-0.6.12.tar.gz这个压缩包，解压。我们要用的主要是webctl.py这个文件,我们需要对它进行一些修改。在修改之前，先创建一个数据库,将sql/struct.sql导入进去。 mysql&#...