利用CrawlSpider构建Scrapy通用爬虫

73 浏览量更新于2024-08-31 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

Scrapy框架的通用爬虫是提高爬虫效率和代码复用的重要手段，尤其是在处理大量站点且存在重复代码的情况下。本篇文章将重点介绍如何利用Scrapy的CrawlSpider来构建通用爬虫。CrawlSpider是Scrapy库中设计用于自动发现和爬取网站链接的通用Spider，其基础原理是通过配置爬取规则（Rules）来指导爬虫的行为。首先，CrawlSpider的实现核心在于rules属性，这是一个包含多个Rule对象的列表。每个Rule负责定义从起始URL到后续页面的爬取路径，包括链接提取策略以及如何解析响应内容。Rule的关键参数包括： 1. **link_extractor**：这是用于从页面中抽取链接的LinkExtractor对象，通常使用LxmlLinkExtractor，可以根据需要自定义正则表达式来筛选出符合条件的链接。LinkExtractor可以根据URL的各种特征（如域名、路径、锚点等）来生成新的请求。 2. **allow**：一个或多个正则表达式，用来指定哪些链接是允许爬取的。例如，你可以设置只爬取特定的子域名或排除某些不相关的链接。 3. **follow**：一个布尔值或函数，定义是否跟随抽取的链接。如果设置为True或一个返回True的函数，爬虫将跟随这些链接；反之，忽略它们。 4. **callback**：一个函数名，当Spider爬取到匹配的链接时，调用此函数来解析页面内容。这个函数应返回Item对象（存储爬取数据的结构）或Request对象（用于进一步爬取）。 parse_start_url()方法是CrawlSpider的入口点，当爬虫遇到start_urls中的链接时，会调用这个方法。在这里，你需要根据具体网站的结构和需求，编写解析逻辑，生成Item对象，并决定如何处理新产生的请求。实现通用爬虫的关键在于： - **规则抽象**：将各站点的共同爬取逻辑和解析逻辑提取出来，作为配置文件或类的一部分，避免重复代码。 - **定制化规则**：为每个目标站点编写特定的规则，如不同的URL模式、解析函数等，确保针对每个站点的差异化需求。通过这种方式，Scrapy通用爬虫能够简化爬虫开发过程，降低维护成本，并使得新站点的爬取只需较少的改动即可上手。对于大规模项目，理解和灵活运用CrawlSpider是提高Scrapy效能和扩展性的重要技能。

资源详情

资源推荐

Scrapy框架的使用之框架的使用之Scrapy通用爬虫通用爬虫

通过Scrapy，我们可以轻松地完成一个站点爬虫的编写。但如果抓取的站点量非常大，比如爬取各大媒体的新闻信息，多个

Spider则可能包含很多重复代码。

如果我们将各个站点的Spider的公共部分保留下来，不同的部分提取出来作为单独的配置，如爬取规则、页面解析方式等抽离

出来做成一个配置文件，那么我们在新增一个爬虫的时候，只需要实现这些网站的爬取规则和提取规则即可。

本节我们就来探究一下Scrapy通用爬虫的实现方法。

一、CrawlSpider

在实现通用爬虫之前，我们需要先了解一下CrawlSpider，其官方文档链接为：http://scrapy.readthedocs.

io/en/latest/topics/spiders.html#crawlspider。

CrawlSpider是Scrapy提供的一个通用Spider。在Spider里，我们可以指定一些爬取规则来实现页面的提取，这些爬取规则由

一个专门的数据结构Rule表示。Rule里包含提取和跟进页面的配置，Spider会根据Rule来确定当前页面中的哪些链接需要继

续爬取、哪些页面的爬取结果需要用哪个方法解析等。

CrawlSpider继承自Spider类。除了Spider类的所有方法和属性，它还提供了一个非常重要的属性和方法。

rules，它是爬取规则属性，是包含一个或多个Rule对象的列表。每个Rule对爬取网站的动作都做了定义，CrawlSpider会读取

rules的每一个Rule并进行解析。

parse_start_url()，它是一个可重写的方法。当start_urls里对应的Request得到Response时，该方法被调用，它会分析

Response并必须返回Item对象或者Request对象。

这里最重要的内容莫过于Rule的定义了，它的定义和参数如下所示：

下面将依次说明Rule的参数。

link_extractor：是Link Extractor对象。通过它，Spider可以知道从爬取的页面中提取哪些链接。提取出的链接会自动生成

Request。它又是一个数据结构，一般常用LxmlLinkExtractor对象作为参数，其定义和参数如下所示：

allow是一个正则表达式或正则表达式列表，它定义了从当前页面提取出的链接哪些是符合要求的，只有符合要求的链接才会

被跟进。deny则相反。allow_domains定义了符合要求的域名，只有此域名的链接才会被跟进生成新的Request，它相当于域

名白名单。deny_domains则相反，相当于域名黑名单。restrict_xpaths定义了从当前页面中XPath匹配的区域提取链接，其值

是XPath表达式或XPath表达式列表。restrict_css定义了从当前页面中CSS选择器匹配的区域提取链接，其值是CSS选择器或

CSS选择器列表。还有一些其他参数代表了提取链接的标签、是否去重、链接的处理等内容，使用的频率不高。可以参考文

档的参数说明：http://scrapy.readthedocs.io /en/latest/topics/link-extractors.html #module-scrapy.linkextractors.lxmlhtml。

callback：即回调函数，和之前定义Request的callback有相同的意义。每次从link_extractor中获取到链接时，该函数将会调

用。该回调函数接收一个response作为其第一个参数，并返回一个包含Item或Request对象的列表。注意，避免使用parse()作

为回调函数。由于CrawlSpider使用parse()方法来实现其逻辑，如果parse()方法覆盖了，CrawlSpider将会运行失败。

cb_kwargs：字典，它包含传递给回调函数的参数。

follow：布尔值，即True或False，它指定根据该规则从response提取的链接是否需要跟进。如果callback参数为None，follow

默认设置为True，否则默认为False。

process_links：指定处理函数，从link_extractor中获取到链接列表时，该函数将会调用，它主要用于过滤。

process_request：同样是指定处理函数，根据该Rule提取到每个Request时，该函数都会调用，对Request进行处理。该函数

必须返回Request或者None。

以上内容便是CrawlSpider中的核心Rule的基本用法。但这些内容可能还不足以完成一个CrawlSpider爬虫。下面我们利用

CrawlSpider实现新闻网站的爬取实例，来更好地理解Rule的用法。

二、Item Loader

我们了解了利用CrawlSpider的Rule来定义页面的爬取逻辑，这是可配置化的一部分内容。但是，Rule并没有对Item的提取方

式做规则定义。对于Item的提取，我们需要借助另一个模块Item Loader来实现。

Item Loader提供一种便捷的机制来帮助我们方便地提取Item。它提供的一系列API可以分析原始数据对Item进行赋值。Item提

供的是保存抓取数据的容器，而Item Loader提供的是填充容器的机制。有了它，数据的提取会变得更加规则化。

Item Loader的API如下所示：

Item Loader的API返回一个新的Item Loader来填充给定的Item。如果没有给出Item，则使用中的类自动实例化

default_item_class。另外，它传入selector和response参数来使用选择器或响应参数实例化。

下载后可阅读完整内容，剩余8页未读，立即下载

weixin_38663452

粉丝: 4
资源: 923

利用CrawlSpider构建Scrapy通用爬虫

Python-scrapy分享一些可以公共使用的中间件扩展等

基于scrapy框架的爬虫设计和实现

python中的爬虫分类

scrapy工作原理中文版

python 分布式爬虫

python爬虫通用脚本

python爬虫 库

scrapy在pycharm

python爬虫通用电商网站

python爬虫课题介绍

如何使用python进行爬虫

用python实现爬虫

python生成可以爬取任何网站的爬虫代码

会爬虫需要学Python吗

python 与爬虫

基于python的网络爬虫学习报告

可以写爬虫的语言有那些

Python爬虫史上

python有哪些框架

python框架有哪些

最新资源

python爬虫库