Python Scrapy：从入门到实践的抓虫之旅

需积分: 3 21 浏览量更新于2024-08-29 收藏 1.19MB PDF 举报

在当今信息技术发展的大环境下，学习爬虫技术已经成为许多开发者必备的一项技能。Scrapy，作为一款强大的Python爬虫框架，因其高效性和易用性在业界备受推崇。本文作者Alex007以个人的编程经历分享了他对Scrapy的学习过程，旨在帮助读者理解并掌握这个框架。首先，Scrapy的安装是入门的第一步。Scrapy官网定义其为一个快速的高级网络爬虫框架，适用于从网站中提取结构化数据，如数据挖掘、监控和自动化测试等广泛应用场景。它支持灵活的请求处理，以及高效的爬虫设计，能够轻松应对大规模数据抓取任务。在初探Scrapy阶段，作者首先介绍了框架的基本概念，强调了其在Python爬虫领域的地位。接着，他详细讲解了Scrapy的安装过程，这对于新手来说是非常关键的一步，因为一个稳定的工作环境是开发的基础。同时，他还提到了Scrapy在抗击疫情期间通过API接口获取百度新闻、地图、学术信息等例子，展示了其在实际应用中的实用性。在实际操作部分，作者着重讲述了Scrapy的基本操作，如持久化存储数据。他区分了基于终端指令的存储方式，如使用Scrapy的内置功能保存抓取结果，以及利用管道机制进行数据处理和存储。此外，他还讲解了如何通过Scrapy实现全站数据抓取，包括处理请求参数和图片下载，这些都是实际爬虫项目中不可或缺的能力。值得注意的是，作者将自己的学习过程和代码实例分享在GitHub上，这不仅是对开源精神的实践，也为其他学习者提供了宝贵的参考资源。在整个学习过程中，Alex007始终保持谦虚的态度，欢迎读者指出可能存在的错误或提供改进意见。这篇文章为读者提供了一个从零开始学习Scrapy框架的全面指南，包括框架安装、基础操作和实战应用，对于想要踏入爬虫领域，特别是使用Python的开发者来说，无疑是一份有价值的参考资料。通过学习Scrapy，开发者可以更好地理解和应对复杂的网络抓取任务，提升自己的IT技能。

这年头学爬虫还就得会点这年头学爬虫还就得会点 scrapy 框架框架

Hello，我是 Alex 007，为啥是007呢？因为叫 Alex 的人太多了，再加上每天007的生活，Alex 007就诞生了。

这几天一直在练车，只能在中间休息的时候写一写博客，可怜去年报的名到现在还没有拿到小本本，当然练车只是副技能，主技能还是coding，不断学习才能不被淘汰。

最近在学爬虫的 scrapy 框架，以前虽然拿 GoLang 玩过爬虫，可惜没有太深入，这次拿 Python 好好学一学。

学习爬虫过程中的代码都放在了GitHub上：https://github.com/koking0/Spider

小生才疏学浅，如有谬误，恭请指正。

文章目录文章目录一、初探 Scrapy1.Scrapy 的安装2.第一个 scrapy 项目二、基本操作1.持久化存储（1）基于终端指令的持久化存储（2）基于管道的持久化存储2.全站数据爬取请求传参3.图

片下载

一、初探一、初探 Scrapy

先来看一下官网的定义：

Scrapy is a fast high-level web crawling and web scraping framework, used to crawl websites and extract structured data from their pages.

Scrapy是一个快速的高级web抓取框架，用于抓取网站和从网页中提取结构化数据。

It can be used for a wide range of purposes, from data mining to monitoring and automated testing.

它可以用于广泛的用途，从数据挖掘到监控和自动化测试。

from

2020-04-09 21:48:47 [scrapy.core.engine] DEBUG: Crawled (200) (referer: None)

抗击肺炎 https://voice.baidu.com/act/newpneumonia/newpneumonia/?from=osari_pc_1

新闻 http://news.baidu.com

hao123 https://www.hao123.com

地图 http://map.baidu.com

视频 http://v.baidu.com

贴吧 http://tieba.baidu.com

学术 http://xueshu.baidu.com

设置 http://www.baidu.com/gaoji/preferences.html

更多产品 http://www.baidu.com/more/

2020-04-09 21:48:47 [scrapy.core.engine] INFO: Closing spider (finished)

2020-04-09 21:48:47 [scrapy.statscollectors] INFO: Dumping Scrapy stats:

{‘downloader/request_bytes’: 732,

‘downloader/request_count’: 2,

‘downloader/request_method_count/GET’: 2,

‘downloader/response_bytes’: 53325,

‘downloader/response_count’: 2,

‘downloader/response_status_count/200’: 1,

‘downloader/response_status_count/302’: 1,

‘elapsed_time_seconds’: 0.491685,

‘finish_reason’: ‘finished’,

‘finish_time’: datetime.datetime(2020, 4, 9, 13, 48, 47, 901362),

‘log_count/DEBUG’: 2,

‘log_count/INFO’: 10,

‘response_received_count’: 1,

‘scheduler/dequeued’: 2,

‘scheduler/dequeued/memory’: 2,

‘scheduler/enqueued’: 2,

‘scheduler/enqueued/memory’: 2,

‘start_time’: datetime.datetime(2020, 4, 9, 13, 48, 47, 409677)}

2020-04-09 21:48:47 [scrapy.core.engine] INFO: Spider closed (finished)

scrapy 给我们输出了很多很多东西，我们的打印结果被放在了中间，其它的内容其实是日志信息，scrapy 帮我们自动生成了日志，如果你觉得碍眼的话，可以通过 settings.py 文件

中的设置只保留错误信息：

LOG_LEVEL = 'ERROR'

二、基本操作二、基本操作

接下来了解一下 scrapy 框架的一些基本操作，比如爬取数据的持久化存储啦，对网站的全站爬取啦还有图片下载等功能。

1.持久化存储持久化存储

爬取到的数据只有保存到本地的电脑上才是自己的，不然只在内存里，用完就没了。

（（1）基于终端指令的持久化存储）基于终端指令的持久化存储

在前边的小试牛刀中我们可以看到控制台的输出，其实基于终端指令的持久化存储就是将终端的输出结果重定向到一个本地文件中。

使用基于终端指令的持久化存储必须保证爬虫文件中的 parse 方法中有可迭代对象返回，通常是列表或者字典。

我们把爬取百度顶部菜单栏的爬虫 parse 方法升级一下：

def parse(self, response):

# xpath 为 response 的方法，可以直接写 xpath 表达式

aList = response.xpath('//*[@id="u1"]/a')

data = {}

for item in aList:

name = item.xpath('.//text()')[0].extract()

url = item.xpath('./@href')[0].extract()

data[name] = url

return data

然后在 settings.py 文件中写一下文件编码的配置，保证使用的是 utf-8 编码方式：

下载后可阅读完整内容，剩余6页未读，立即下载

weixin_38694006

粉丝: 6
资源: 923

Python Scrapy：从入门到实践的抓虫之旅

python爬虫学习笔记-scrapy框架(2)

解析Python网络爬虫：核心技术、Scrapy框架、分布式爬虫全套教学资料

爬虫python入门用python的scrapy框架爬取网站的代理ip，是很好的爬虫案例.zip

Python爬虫Scrapy框架

Scrapy框架爬虫.rar_scrapy_爬虫

Python scrapy 爬虫入门（二）scrapy 框架基础

Python爬虫小项目-基于Scrapy框架的爬虫

scrapy爬虫框架

scrapy 爬虫框架

PythonScrapy爬虫框架学习

最新资源