Scrapy框架CrawlSpiders全站爬取详解

152 浏览量更新于2024-08-31 收藏 174KB PDF 举报

"本文主要介绍了Scrapy框架中的CrawlSpiders特性，包括它的设计原理、源码解析，以及如何使用CrawlSpiders进行全站爬取。CrawlSpider是Spider的增强版，适用于大规模网站的爬取，通过定义规则（rule）自动跟踪链接。" 在Scrapy框架中，CrawlSpiders是一个专门为全站爬取设计的高级爬虫类，它扩展了基本的Spider类。Spider类虽然强大，但主要针对单个页面或有限数量的URL进行爬取。CrawlSpider引入了一套规则系统，允许开发者定义如何从当前页面发现并跟随新的链接，从而实现更复杂的网络爬虫功能。 CrawlSpider的核心在于其`rules`属性，这是一个规则列表，每个规则都包含一个链接提取器(Link Extractor)和一个回调函数(callback)。链接提取器负责从网页HTML中提取出需要跟进的链接，而回调函数则对提取出的链接进行处理，通常用于解析页面内容并生成新的请求(Request)。源码中，`CrawlSpider`类在初始化时会编译规则(`_compile_rules()`方法)，确保它们在运行时有效。`parse`方法是Scrapy爬虫的基本入口点，处理从`start_urls`开始的响应(response)。在CrawlSpider中，`parse`方法将响应传递给`_parse_response`，然后调用`parse_start_url`方法，该方法需要重写以处理起始URL的响应，并返回新的请求或结果。 `process_results`方法用于处理`parse_start_url`返回的结果，可以在这里进行进一步的数据处理或者过滤。`_requests_to_follow`方法是关键，它从响应中提取符合规则的链接，构造新的Request对象，这些Request对象会按照规则定义的callback函数进行处理。使用CrawlSpider时，开发者需要定义自己的规则，例如： ```python class MyCrawlSpider(CrawlSpider): name = 'my_crawler' allowed_domains = ['example.com'] start_urls = ['http://www.example.com/'] rules = ( Rule(LinkExtractor(allow=('/page/\d+/',)), callback='parse_item', follow=True), ) def parse_item(self, response): # 解析页面并提取所需数据 pass ``` 在这个例子中，规则表示只跟进URL路径中包含`/page/\d+/`的链接，并调用`parse_item`方法处理这些页面。 CrawlSpiders使得Scrapy更适合大规模、结构化的网站爬取，通过定义规则，可以自动化处理链接跟踪和数据解析，大大提高了爬虫的效率和可维护性。开发者可以根据需求定义不同的规则，灵活地定制爬虫的行为，使其能够适应各种复杂的网站结构。

Scrapy框架框架CrawlSpiders的介绍以及使用详解的介绍以及使用详解

主要介绍了Scrapy框架CrawlSpiders的介绍以及使用详解，小编觉得挺不错的，现在分享给大家，也给大家做

个参考。一起跟随小编过来看看吧

在Scrapy基础——Spider中，我简要地说了一下Spider类。Spider基本上能做很多事情了，但是如果你想爬取知乎或者是简书

全站的话，你可能需要一个更强大的武器。CrawlSpider基于Spider，但是可以说是为全站爬取而生。

CrawlSpiders是Spider的派生类，Spider类的设计原则是只爬取start_url列表中的网页，而CrawlSpider类定义了一些规则

(rule)来提供跟进link的方便的机制，从爬取的网页中获取link并继续爬取的工作更适合。

一、我们先来分析一下一、我们先来分析一下CrawlSpiders源码源码

源码解析

class CrawlSpider(Spider):

rules = ()

def __init__(self, *a, **kw):

super(CrawlSpider, self).__init__(*a, **kw)

self._compile_rules()

# 首先调用parse()来处理start_urls中返回的response对象

# parse()则将这些response对象传递给了_parse_response()函数处理，并设置回调函数为parse_start_url()

# 设置了跟进标志位True

# parse将返回item和跟进了的Request对象

def parse(self, response):

return self._parse_response(response, self.parse_start_url, cb_kwargs={}, follow=True)

# 处理start_url中返回的response，需要重写

def parse_start_url(self, response):

return []

def process_results(self, response, results):

return results

# 从response中抽取符合任一用户定义'规则'的链接，并构造成Resquest对象返回

def _requests_to_follow(self, response):

if not isinstance(response, HtmlResponse):

return

seen = set()

# 抽取之内的所有链接，只要通过任意一个'规则'，即表示合法

for n, rule in enumerate(self._rules):

links = [l for l in rule.link_extractor.extract_links(response) if l not in seen]

# 使用用户指定的process_links处理每个连接

if links and rule.process_links:

links = rule.process_links(links)

# 将链接加入seen集合，为每个链接生成Request对象，并设置回调函数为_repsonse_downloaded()

for link in links:

seen.add(link)

# 构造Request对象，并将Rule规则中定义的回调函数作为这个Request对象的回调函数

r = Request(url=link.url, callback=self._response_downloaded)

r.meta.update(rule=n, link_text=link.text)

# 对每个Request调用process_request()函数。该函数默认为indentify，即不做任何处理，直接返回该Request.

yield rule.process_request(r)

# 处理通过rule提取出的连接，并返回item以及request

def _response_downloaded(self, response):

rule = self._rules[response.meta['rule']]

return self._parse_response(response, rule.callback, rule.cb_kwargs, rule.follow)

# 解析response对象，会用callback解析处理他，并返回request或Item对象

def _parse_response(self, response, callback, cb_kwargs, follow=True):

# 首先判断是否设置了回调函数。（该回调函数可能是rule中的解析函数，也可能是 parse_start_url函数）

# 如果设置了回调函数（parse_start_url()），那么首先用parse_start_url()处理response对象，

# 然后再交给process_results处理。返回cb_res的一个列表

if callback:

#如果是parse调用的，则会解析成Request对象

#如果是rule callback，则会解析成Item

cb_res = callback(response, **cb_kwargs) or ()

cb_res = self.process_results(response, cb_res)

for requests_or_item in iterate_spider_output(cb_res):

yield requests_or_item

# 如果需要跟进，那么使用定义的Rule规则提取并返回这些Request对象

if follow and self._follow_links:

#返回每个Request对象

for request_or_item in self._requests_to_follow(response):

yield request_or_item

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38695773

粉丝: 10
资源: 956

Scrapy框架CrawlSpiders全站爬取详解

Python Scrapy框架：通用爬虫之CrawlSpider用法简单示例

解析Python网络爬虫：核心技术、Scrapy框架、分布式爬虫全套教学资料

使用scrapy框架的优点

scrapy框架的初次使用

scrapy框架各个模块的使用案例

使用Scrapy框架爬取

使用scrapy框架爬取

scrapy框架参考文献

jupyter中使用scrapy进行爬虫而不是scrapy框架

scrapy框架详细介绍

最新资源