Python爬虫进阶：深度解析Scrapy框架

81 浏览量更新于2024-08-29 收藏 1.19MB PDF 举报

"本文主要介绍了Python的爬虫框架Scrapy的初探和基本操作，包括Scrapy的安装、创建第一个Scrapy项目、数据的持久化存储、全站数据爬取和图片下载等核心概念。作者提供了个人的学习代码仓库链接，以便读者参考实践。" 在如今的互联网时代，掌握爬虫技术已经成为许多开发者的必备技能之一，而Scrapy作为Python中的一款高效爬虫框架，备受青睐。Scrapy以其强大的功能和易用性，使得开发者能够快速构建起复杂的爬虫项目。 **一、初探Scrapy** Scrapy的安装通常是通过Python的包管理器pip进行的，只需在命令行输入`pip install scrapy`即可。一旦安装完成，你可以通过`scrapy startproject <project_name>`命令创建一个新的Scrapy项目。这个框架包含多个组件，如引擎、调度器、下载器、爬虫、Item Pipeline等，它们协同工作以实现高效的网页抓取和数据提取。 **二、基本操作** 1. **持久化存储** - **基于终端指令的持久化存储**：Scrapy提供命令行工具，如`scrapy crawl <spider_name> -o output.json`，可以直接将爬取的数据输出为JSON文件。 - **基于管道（Pipelines）的持久化存储**：更复杂的数据处理和存储可以通过自定义Pipeline实现，比如将数据清洗、验证后再存储到数据库或文件系统。 2. **全站数据爬取请求传参**：Scrapy允许开发者通过设置Request对象的meta属性传递参数，以便在不同组件之间共享信息，实现全站数据的爬取。 3. **图片下载**：Scrapy提供内置的ImagesPipeline，可以自动下载网页上的图片，并支持设置图片大小、质量等过滤条件。在实际使用中，开发者可以利用Scrapy的这些特性，根据需求定制爬虫，实现对目标网站的深度抓取。例如，可以通过编写特定的爬虫类来定义抓取规则，使用XPath或CSS选择器提取数据，利用中间件进行请求和响应的预处理或后处理，以及利用Item Pipeline进行数据清洗和存储。文章虽然简短，但给出了Scrapy入门的关键步骤和一些基本操作的实例，对于初学者来说是一个很好的起点。作者分享的GitHub代码仓库可以作为动手实践的参考，帮助读者更好地理解和应用Scrapy框架。不过，深入学习Scrapy，还需要进一步了解其高级特性和最佳实践，例如分布式爬虫、反反爬策略、异常处理等。

这年头学爬虫还就得会点这年头学爬虫还就得会点 scrapy 框架框架

Hello，我是 Alex 007，为啥是007呢？因为叫 Alex 的人太多了，再加上每天007的生活，Alex 007就诞生了。

这几天一直在练车，只能在中间休息的时候写一写博客，可怜去年报的名到现在还没有拿到小本本，当然练车只是副技能，主技能还是coding，不断学习才能不被淘汰。

最近在学爬虫的 scrapy 框架，以前虽然拿 GoLang 玩过爬虫，可惜没有太深入，这次拿 Python 好好学一学。

学习爬虫过程中的代码都放在了GitHub上：https://github.com/koking0/Spider

小生才疏学浅，如有谬误，恭请指正。

文章目录文章目录一、初探 Scrapy1.Scrapy 的安装2.第一个 scrapy 项目二、基本操作1.持久化存储（1）基于终端指令的持久化存储（2）基于管道的持久化存储2.全站数据爬取请求传参3.图

片下载

一、初探一、初探 Scrapy

先来看一下官网的定义：

Scrapy is a fast high-level web crawling and web scraping framework, used to crawl websites and extract structured data from their pages.

Scrapy是一个快速的高级web抓取框架，用于抓取网站和从网页中提取结构化数据。

It can be used for a wide range of purposes, from data mining to monitoring and automated testing.

它可以用于广泛的用途，从数据挖掘到监控和自动化测试。

from

2020-04-09 21:48:47 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)

抗击肺炎 https://voice.baidu.com/act/newpneumonia/newpneumonia/?from=osari_pc_1

新闻 http://news.baidu.com

hao123 https://www.hao123.com

地图 http://map.baidu.com

视频 http://v.baidu.com

贴吧 http://tieba.baidu.com

学术 http://xueshu.baidu.com

设置 http://www.baidu.com/gaoji/preferences.html

更多产品 http://www.baidu.com/more/

2020-04-09 21:48:47 [scrapy.core.engine] INFO: Closing spider (finished)

2020-04-09 21:48:47 [scrapy.statscollectors] INFO: Dumping Scrapy stats:

{‘downloader/request_bytes’: 732,

‘downloader/request_count’: 2,

‘downloader/request_method_count/GET’: 2,

‘downloader/response_bytes’: 53325,

‘downloader/response_count’: 2,

‘downloader/response_status_count/200’: 1,

‘downloader/response_status_count/302’: 1,

‘elapsed_time_seconds’: 0.491685,

‘finish_reason’: ‘finished’,

‘finish_time’: datetime.datetime(2020, 4, 9, 13, 48, 47, 901362),

‘log_count/DEBUG’: 2,

‘log_count/INFO’: 10,

‘response_received_count’: 1,

‘scheduler/dequeued’: 2,

‘scheduler/dequeued/memory’: 2,

‘scheduler/enqueued’: 2,

‘scheduler/enqueued/memory’: 2,

‘start_time’: datetime.datetime(2020, 4, 9, 13, 48, 47, 409677)}

2020-04-09 21:48:47 [scrapy.core.engine] INFO: Spider closed (finished)

scrapy 给我们输出了很多很多东西，我们的打印结果被放在了中间，其它的内容其实是日志信息，scrapy 帮我们自动生成了日志，如果你觉得碍眼的话，可以通过 settings.py 文件

中的设置只保留错误信息：

LOG_LEVEL = 'ERROR'

二、基本操作二、基本操作

接下来了解一下 scrapy 框架的一些基本操作，比如爬取数据的持久化存储啦，对网站的全站爬取啦还有图片下载等功能。

1.持久化存储持久化存储

爬取到的数据只有保存到本地的电脑上才是自己的，不然只在内存里，用完就没了。

（（1）基于终端指令的持久化存储）基于终端指令的持久化存储

在前边的小试牛刀中我们可以看到控制台的输出，其实基于终端指令的持久化存储就是将终端的输出结果重定向到一个本地文件中。

使用基于终端指令的持久化存储必须保证爬虫文件中的 parse 方法中有可迭代对象返回，通常是列表或者字典。

我们把爬取百度顶部菜单栏的爬虫 parse 方法升级一下：

def parse(self, response):

# xpath 为 response 的方法，可以直接写 xpath 表达式

aList = response.xpath('//*[@id="u1"]/a')

data = {}

for item in aList:

name = item.xpath('.//text()')[0].extract()

url = item.xpath('./@href')[0].extract()

data[name] = url

return data

然后在 settings.py 文件中写一下文件编码的配置，保证使用的是 utf-8 编码方式：

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38571878

粉丝: 5
资源: 935

Python爬虫进阶：深度解析Scrapy框架

东方财富新闻爬虫实战：使用Python与Scrapy框架

Scrapy框架教程：Python爬虫的全面学习指南

全面掌握Python爬虫技术：从urllib到Scrapy框架详解

爬虫python入门用python的scrapy框架爬取网站的代理ip，是很好的爬虫案例.zip

Python爬虫Scrapy框架

Scrapy框架爬虫.rar_scrapy_爬虫

Python scrapy 爬虫入门（二）scrapy 框架基础

Python爬虫小项目-基于Scrapy框架的爬虫

scrapy爬虫框架

scrapy 爬虫框架

最新资源