Scrapy-Redis：分布式爬虫实战与原理剖析

5星 · 超过95%的资源 29 浏览量更新于2024-08-29 1 收藏 208KB PDF 举报

Scrapy是一个强大的Python爬虫框架，它简化了编写爬虫的过程，只需编写几个组件即可获取网页数据。然而，随着要抓取的页面数量剧增，单机性能可能无法满足高并发和处理速度的需求。这时，分布式爬虫的优势变得尤为重要，Scrapy-Redis正是解决这个问题的一个关键组件。 Scrapy-Redis是一个基于Redis的Scrapy扩展，它主要通过Redis来管理和调度爬虫任务。在Scrapy原有的单机架构基础上，Scrapy-Redis引入了分布式特性，通过Redis存储待爬取的请求(Requests)并进行调度，同时管理爬取过程中产生的项目(items)。它重写了Scrapy的一些核心代码，使其能够在多个主机上协同工作，实现了爬虫的分布式部署。 Scrapy-Redis的工作原理主要包括两个主要组件：scheduler（调度器）和pipelines（管道）。调度器利用Redis存储待爬取的任务，确保请求按照一定的策略（如随机、优先级等）进行分配，同时避免重复抓取。而pipelines则在分布式环境中处理和存储爬取的项目，确保数据的一致性和可靠性。 connection.py模块是Scrapy-Redis的核心部分，它负责根据settings中的配置创建Redis连接，并为其他模块提供服务，如dupefilter（去重过滤）和scheduler。这个模块设置了默认的Redis连接参数，如超时时间和连接重试机制。 Scrapy-Redis工程本身并不复杂，主要依赖于Redis和Scrapy这两个库，它作为这两者之间的桥梁，整合了它们的功能。虽然官方文档可能较为简洁，深入理解分布式爬虫的运行机制通常需要查看源代码，但scrapy-redis的源代码相对较少且易于理解。 Scrapy-Redis极大地提升了Scrapy在大规模爬虫场景下的性能，使得爬虫可以分布式地处理大量请求，通过Redis的高效存储和调度机制，有效地优化了爬虫的执行效率和资源利用率。通过学习和应用Scrapy-Redis，开发者能够更好地应对大规模数据抓取的需求，构建更加健壮和高效的网络爬虫系统。

负责执行requst的去重，实现的很有技巧性，使用redis的set数据结构。但是注意scheduler并不使用其中用于在这个模块中实

现的dupefilter键做request的调度，而是使用queue.py模块中实现的queue。当request不重复时，将其存入到queue中，调度

时将其弹出。

import logging

import time

from scrapy.dupefilters import BaseDupeFilter

from scrapy.utils.request import request_fingerprint

from .connection import get_redis_from_settings

DEFAULT_DUPEFILTER_KEY = "dupefilter:%(timestamp)s"

logger = logging.getLogger(__name__)

# TODO: Rename class to RedisDupeFilter.

class RFPDupeFilter(BaseDupeFilter):

"""Redis-based request duplicates filter.

This class can also be used with default Scrapy's scheduler.

"""

logger = logger

def __init__(self, server, key, debug=False):

"""Initialize the duplicates filter.

Parameters

----------

server : redis.StrictRedis

The redis server instance.

key : str

Redis key Where to store fingerprints.

debug : bool, optional

Whether to log filtered requests.

"""

self.server = server

self.key = key

self.debug = debug

self.logdupes = True

@classmethod

def from_settings(cls, settings):

"""Returns an instance from given settings.

This uses by default the key ``dupefilter:<timestamp>``. When using the

``scrapy_redis.scheduler.Scheduler`` class, this method is not used as

it needs to pass the spider name in the key.

Parameters

----------

settings : scrapy.settings.Settings

Returns

-------

RFPDupeFilter

A RFPDupeFilter instance.

"""

server = get_redis_from_settings(settings)

# XXX: This creates one-time key. needed to support to use this

# class as standalone dupefilter with scrapy's default scheduler

# if scrapy passes spider on open() method this wouldn't be needed

# TODO: Use SCRAPY_JOB env as default and fallback to timestamp.

key = DEFAULT_DUPEFILTER_KEY % {'timestamp': int(time.time())}

debug = settings.getbool('DUPEFILTER_DEBUG')

return cls(server, key=key, debug=debug)

@classmethod

def from_crawler(cls, crawler):

"""Returns instance from crawler.

Parameters

----------

crawler : scrapy.crawler.Crawler

Returns

-------

RFPDupeFilter

Instance of RFPDupeFilter.

"""

return cls.from_settings(crawler.settings)

def request_seen(self, request):

"""Returns True if request was already seen.

Parameters

----------

request : scrapy.http.Request

Returns

-------

bool

"""

fp = self.request_fingerprint(request)

# This returns the number of values added, zero if already exists.

added = self.server.sadd(self.key, fp)

return added == 0

def request_fingerprint(self, request):

剩余10页未读，继续阅读

weixin_38618315

粉丝: 1
资源: 920

Scrapy-Redis：分布式爬虫实战与原理剖析

Scrapy-redis分布式爬虫平台的设计与实现

Scrapy-Redis分布式爬虫构建与原理详解

掌握Scrapy-Redis分布式爬虫框架及实例教程

使用Scrapy-Redis实现分布式爬虫：提高爬取效率

基于scrapy-redis实现分布式爬虫.zip

scrapy-redis分布式爬虫实现案例

基于scrapy-redis实现分布式爬虫，爬取知乎所有问题及对应的回答资料齐全+文档详细.zip

Python实现基于Scrapy-Redis的分布式爬虫实现框架源码.zip

基于Scrapy-redis的分布式爬虫Web平台

scrapy-redis搭建分布式爬虫环境 - 温良Miner - 博客园1

最新资源