"深入理解Python爬虫框架Scrapy：概述、工作流程及应用范围"

需积分: 0 185 浏览量更新于2024-01-02 收藏 221KB DOCX 举报

Scrapy是一个用于爬取网站数据的开源框架，可以用于提取结构性数据，并且具有广泛的应用领域，如网络爬虫、数据挖掘、数据监测和自动化测试等。它基于Twisted异步处理框架，具有清晰的架构和强大的可扩展性，适用于各种需求。Scrapy的工作流程主要包括Scrapy Engine（框架的引擎）、Scheduler（调度器）、Downloader（下载器）、Spiders（网络爬虫）、Item Pipline（项目管道）和Downloader Middlewares（下载器中间件）等几个部分。 Scrapy框架的核心是Scrapy Engine，该引擎用于处理整个系统的数据流，触发各种事件，是整个框架的核心。Scheduler则用于接收引擎发过来的请求，添加至队列中，并在引擎再次请求时将请求返回给引擎。它可以理解为从URL队列中取出一个请求地址，同时去除重复的请求地址。Downloader则用于从网络下载Web资源，是Scrapy框架的下载部分。Spiders是Scrapy框架的核心模块之一，用于从指定网页中爬取需要的信息。Item Pipline用于处理爬取后的数据，例如数据的清洗、验证以及保存。Downloader Middlewares则位于Scrapy引擎和下载器之间，主要用于处理引擎与下载器之间的请求和响应。 Scrapy框架的特点包括高效的数据提取能力、高度可定制的功能、清晰的架构、易于扩展和重用以及丰富的文档和社区支持。它能够灵活地处理各种网页的结构，提供多种选择的选择方法，并且支持多种类型的数据输出。因此，Scrapy框架适用于各种规模和需求的网络爬虫应用。在实际应用中，Scrapy框架可以通过简单的命令创建一个新的爬虫项目，并通过编写Spider类来定义爬取的规则。在定义Spider类时，可以通过XPath或CSS选择器等方式进行数据的提取，并可以通过pipelines模块对爬取后的数据进行处理。此外，Scrapy框架还支持使用middlewares对请求和响应进行处理，例如设置请求头、代理等。可以通过配置文件对Scrapy框架进行参数的配置，以满足不同的需求。在开发环境下，Scrapy框架支持多种方式的部署，可以通过命令行工具进行爬虫的运行和调试。对于大规模的爬虫任务，Scrapy框架还支持分布式的部署，可以结合第三方的分布式任务调度工具进行使用。在总体上，Python爬虫框架Scrapy是一个功能强大、灵活多样、易于使用的开源框架，适用于各种网络爬虫和数据挖掘的应用场景。它通过清晰的架构和强大的可扩展性，为用户提供了多种方便和高效的爬取和处理数据的方式。同时，丰富的文档和社区支持，使得Scrapy框架成为了Python爬虫领域中备受青睐的工具之一。

在 spiders 文件夹当中创建一个名称为“crawl.py”的爬虫文件，然后在该文件中，首先创建

QuotesSpider 类，该类需要继承自 scrapy.Spider 类，然后重写 start_requests()方法实现

网络的请求工作，接着重写 parse()方法实现向文件中写入获取的 html 代码。示例代码如下：

#_*_coding:utf-8_*_

# 作者：liuxiaowei

# 创建时间：2/17/22 11:18 AM

# 文件：crawl.py

# IDE ：PyCharm

# 导入框架 import scrapyclass QuotesSpider(scrapy.Spider):

# 定义爬虫名称

name = 'quotes_1'

def start_requests(self):

# 设置爬取目标的地址

urls =

['http://quotes.toscrape.com/page/1/','http://quotes.toscrape.com/page/

2/',]

# 获取所有地址，有几个地址则发送几个请求 for url in urls:

# 发送请求 yield scrapy.Request(url=url, callback=self.parse)

def parse(self, response):

# 获取页数

page = response.url.split('/')[-2]

# 根据页数设置文名称

filename = 'quotes-%s.html' % page

# 以写入文件模式打开文件，如果没有该文件将创建该文件 with open(filename, 'wb')

as f:

# 向文件中写入获取的 HTML 代码

f.write(response.body)

# 输出保存文件的名称

self.log('Saved file %s' % filename)

复制

在运行 Scrapy 所创建的爬虫项目时，需要在命令窗口输入“scrapy crawl quotes_1“，其

中”quotes_1“是自己定义的爬虫名称。本人使用第三方开发工具 PyCharm，所以需要在底

部的 Terminal 窗口中输入运行爬虫的命令行，运行完成以后如下图所示：

liuxiaowei@MacBookAir spiders % scrapy crawl quotes_1 # 运行爬虫的命令行

2022-02-17 11:23:47 [scrapy.utils.log] INFO: Scrapy 2.5.1 started (bot:

scrapyDemo)2022-02-17 11:23:47 [scrapy.utils.log] INFO: Versions: lxml

剩余20页未读，继续阅读

老了敲不动了

粉丝: 87
资源: 4288

"深入理解Python爬虫框架Scrapy：概述、工作流程及应用范围"

Python爬虫框架Scrapy

Python爬虫Scrapy框架

爬虫框架Scrapy

python爬虫scrapy框架教程_Python爬虫框架Scrapy基本用法入门教程

python爬虫框架Scrapy

Python爬虫框架Scrapy实例代码

Python 爬虫框架Scrapy ITEM PIPELINE

python爬虫框架scrapy-0.10.2

Python-python爬虫框架scrapy练手项目

Python爬虫框架Scrapy详解

最新资源