Scrapy框架详解：数据流与项目结构

需积分: 6 20 浏览量更新于2024-08-05 收藏 1.17MB PDF 举报

"scrapy框架概览.pdf" Scrapy是一个强大的Python爬虫框架，它提供了一整套方便快捷地构建网络爬虫的工具。Scrapy的设计理念是为了解决复杂、高效率的网页抓取任务，同时具备处理数据的能力，如清洗、验证和存储。 **Scrapy架构组件** 1. **Engine（引擎）**: 是Scrapy的核心，负责控制数据流在系统中的各个组件之间流动。它负责调度器和下载器之间的通信，以及触发相应的事件。 2. **Item（项目）**: Item是Scrapy中的数据结构，通常定义为Python类，用于表示爬取的目标数据。你可以把它看作是一个包含所需字段的字典，如`{'title': '标题', 'content': '内容'}`。 3. **Scheduler（调度器）**: 负责管理请求队列，接收引擎传递过来的请求，并按照特定策略安排请求的执行顺序。 4. **Downloader（下载器）**: 负责实际的HTTP请求，从Web服务器下载网页内容，并将响应传递回引擎。 5. **Spiders（蜘蛛）**: 蜘蛛是Scrapy中编写爬取逻辑和解析网页规则的地方。它们生成初始请求，处理下载器返回的响应，从中提取Item和新的请求。 6. **Item Pipeline（项目管道）**: 处理由蜘蛛提取的Item，执行数据清洗、验证、转换和存储等操作。例如，可以去除空值、异常值，或者将数据存入数据库。 7. **Downloader Middleware（下载器中间件）**: 这些中间件位于引擎和下载器之间，可以自定义下载行为，如处理重定向、设置请求头、处理cookies等。 8. **Spider Middleware（蜘蛛中间件）**: 位于引擎和蜘蛛之间，用于处理蜘蛛的输入（响应）和输出（请求）。可以实现自定义的请求预处理和响应后处理功能。 **数据流过程** 当在命令行中调用Scrapy时，数据流大致如下： 1. Scrapy会根据指定的子项目启动相应的Spider。 2. Spider获取start_urls列表中的第一个URL，将其发送给调度器。 3. 调度器将URL返回给引擎，引擎再通过下载器中间件将请求发送给下载器。 4. 下载器下载页面后，将响应返回给引擎，引擎将响应传递给蜘蛛进行解析。 5. 蜘蛛解析响应，提取Item和新的请求。这些Item会被发送到Item Pipeline，而新的请求则回到调度器重新开始流程。 **项目结构** 一个典型的Scrapy项目包括以下部分： 1. `items.py`: 定义Item类，如`ArticleItem`，用于描述抓取的数据结构。 2. `spiders/`: 存放Spider子项目的目录，每个子项目包含一个或多个Python类，每个类对应一个特定的网站爬取规则。 3. `settings.py`: 配置文件，可自定义项目的行为，如设置下载延迟、启用的中间件等。 4. `pipelines.py`: 定义Item Pipeline的类。在Spider中，`allowed_domains`用于指定爬虫允许爬取的域名，`start_urls`是爬虫开始爬取的URL列表，`parse()`方法是默认的回调函数，当启动的URL被下载后，其响应会被传递给`parse()`进行处理。以上就是Scrapy框架的基本概念、组件以及数据流的概述，通过这个强大的框架，开发者可以高效地实现网页抓取和数据处理任务。

⽤

于

保

存

数

据

对

象

，

⽤

法

与

字

典

类

似

（

item['title']='

标

题

）

。

定

义

需

要

的

字

段

。

spider

1. name

：

Spider

⼦

项

⽬

的

名

字

。

（

启

动

⼦

项

⽬

，

scrapy crawl name ,

唯

⼀

）

2. allowed_domains

：

允

许

这

个

⼦

项

⽬

爬

取

的

域

名

。

3. start_urls

：

Spider

最

开

始

的

启

动

url

列

表

。

4. parse()

：

start_urls

⾥

⾯

的

url

被

请

求

之

后

，

返

回

的

响

应

体

就

会传

到

这

个

⽅

法

做

处

理

，

然

后

返

回

item

或

者

新

的

请

求

。

def parse(self, response):

article_list = response.css(".common-list")

article_list = article_list.xpath(".//ul/li")

for article in article_list:

item = ArticleItem()

item['link'] = article.xpath(".//a/@href").extract_first()

item['title'] = article.xpath(".//a/@title").extract_first()

item['content'] = article.xpath(".//a/text()").re_first('(.*)')

# yield item #

返

回

item

对

象

交

给

piplines

处

理

# yield scrapy.Request(url=item['link'],meta={'item':item},callback=self.parse_detail)

返

回

⼀个

新

的

请

求

，

请

求

之

后

的

响

应

体

交

给

⾃

⼰

定

义

的

parse_detail

⽅

法

处

理

，

若

有

参

数

需

要

传

递

，

⽤

Scrapy框架详解：数据流与项目结构

scrapy.pdf

scrapy1.6.pdf

docs-scrapy-org-en-latest.pdf

Scrapy框架官方文档：从入门到精通

Python学习总结.pdf

python数据分析基础文字版教程.pdf

python scrapy电子书开发文档

自己动手写网络爬虫.罗刚_王振东.扫描版

51job 16.docx

Scrapy 0.24.0电子书教程：Python爬虫框架指南

最新资源