Python抓取框架：Scrapy的架构

标点符 2011-07-06 23:41:25 累计浏览 9,107 次

本机暂存

内容概览

这篇从“想用Python抓点数据”的实际需求出发，带读者拆解了Scrapy这个高效爬虫框架的核心骨架。作者没有停留在用法层面，而是深入其内部，清晰勾勒出数据流从“请求”到“持久化”的完整旅程。

文章的核心在于解析Scrapy如何通过组件化设计来实现高性能爬取。比如，它解释了Scrapy Engine如何作为“中央调度器”协调各个部件；Scheduler（调度器）如何管理请求队列避免重复下载；Downloader（下载器）与中间件（Middleware）如何配合，异步处理网络请求并实现灵活的预处理与后处理；Spiders（爬虫）作为业务逻辑核心，如何产出数据并交给Item Pipeline进行清洗和存储。

这种分层、可插拔的架构，正是Scrapy能轻松应对复杂爬取场景、并保持高扩展性的关键。了解这些，你才能明白为什么自定义中间件可以轻松添加代理或设置Headers，以及如何更好地规划自己的爬虫项目。对于正在学习爬虫的朋友，文章会是个不错的起点。

最近在学Python，同时也在学如何使用python抓取数据，于是就被我发现了这个非常受欢迎的Python抓取框架Scrapy，下面一起学习下Scrapy的架构，便于更好的使用这个工具。

一、概述

下图显示了Scrapy的大体架构，其中包含了它的主要组件及系统的数据处理流程(绿色箭头所示)。下面就来一个个解释每个组件的作用及数据的处理过程。

原图已失效

二、组件

1、Scrapy Engine(Scrapy引擎)

Scrapy引擎是用来控制整个系统的数据处理流程，并进行事务处理的触发。更多的详细内容可以看下面的数据处理流程。

2、Scheduler(调度)

调度程序从Scrapy引擎接受请求并排序列入队列，并在Scrapy引擎发出请求后返还给他们。

3、Downloader(下载器)

下载器的主要职责是抓取网页并将网页内容返还给蜘蛛( Spiders)。

4、Spiders(蜘蛛)

蜘蛛是有Scrapy用户自己定义用来解析网页并抓取制定URL返回的内容的类，每个蜘蛛都能处理一个域名或一组域名。换句话说就是用来定义特定网站的抓取和解析规则。

蜘蛛的整个抓取流程(周期)是这样的：

首先获取第一个URL的初始请求，当请求返回后调取一个回调函数。第一个请求是通过调用start_requests()方法。该方法默认从start_urls中的Url中生成请求，并执行解析来调用回调函数。

在回调函数中，你可以解析网页响应并返回项目对象和请求对象或两者的迭代。这些请求也将包含一个回调，然后被Scrapy下载，然后有指定的回调处理。

在回调函数中，你解析网站的内容，同程使用的是Xpath选择器(但是你也可以使用BeautifuSoup, lxml或其他任何你喜欢的程序)，并生成解析的数据项。

最后，从蜘蛛返回的项目通常会进驻到项目管道。

5、Item Pipeline(项目管道)

项目管道的主要责任是负责处理有蜘蛛从网页中抽取的项目，他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后，将被发送到项目管道，并经过几个特定的次序处理数据。每个项目管道的组件都是有一个简单的方法组成的Python类。他们获取了项目并执行他们的方法，同时他们还需要确定的是是否需要在项目管道中继续执行下一步或是直接丢弃掉不处理。

项目管道通常执行的过程有：

清洗HTML数据

验证解析到的数据(检查项目是否包含必要的字段)

检查是否是重复数据(如果重复就删除)

将解析到的数据存储到数据库中

6、Downloader middlewares(下载器中间件)

下载中间件是位于Scrapy引擎和下载器之间的钩子框架，主要是处理Scrapy引擎与下载器之间的请求及响应。它提供了一个自定义的代码的方式来拓展Scrapy的功能。下载中间器是一个处理请求和响应的钩子框架。他是轻量级的，对Scrapy尽享全局控制的底层的系统。

7、Spider middlewares(蜘蛛中间件)

蜘蛛中间件是介于Scrapy引擎和蜘蛛之间的钩子框架，主要工作是处理蜘蛛的响应输入和请求输出。它提供一个自定义代码的方式来拓展Scrapy的功能。蛛中间件是一个挂接到Scrapy的蜘蛛处理机制的框架，你可以插入自定义的代码来处理发送给蜘蛛的请求和返回蜘蛛获取的响应内容和项目。

8、Scheduler middlewares(调度中间件)

调度中间件是介于Scrapy引擎和调度之间的中间件，主要工作是处从Scrapy引擎发送到调度的请求和响应。他提供了一个自定义的代码来拓展Scrapy的功能。

三、数据处理流程