scrapy教程：实战示例——使用ImagesPipeline爬取豆瓣图片

41 浏览量更新于2024-08-31 收藏 34KB PDF 举报

在这个Scrapy示例中，我们学习如何使用Scrapy框架来构建一个爬虫，专门从豆瓣网抓取图片资源。首先，我们需要创建一个新的Scrapy项目，通过命令`scrapy startproject DoubanImgs`实现。接着，进入项目目录并生成一个名为`download_douban`的蜘蛛，通过`scrapy genspider download_douban douban.com`命令。在`spiders/download_douban.py`文件中，定义了一个名为`download_douban`的Spider类。这个类继承自`Spider`基类，并设置了默认的HTTP头，如User-Agent，以模拟浏览器访问网站。这些设置有助于提高爬虫的伪装性和网页抓取的正常性。在`__init__`方法中，我们初始化了爬虫的一些属性，如允许的域名`douban.com`和起始URL列表。这里通过循环生成了23个页面的URL，其中第一个页面的URL包含用户ID（例如`url='1638835355'`），后续页面的URL结构与之类似，用于遍历豆瓣相册中的多页图片。 `ImagesPipeline`是Scrapy中的一个重要环节，它负责下载图片并将它们存储到指定的文件夹中。虽然在这个示例代码中并未明确提及如何使用`ImagesPipeline`，但我们可以推断，在项目的其他配置文件（如`settings.py`）中，应该已经定义了一个`IMAGES_STORE`变量，指定了图片保存的路径，通常是爬虫项目的`full`文件夹。为了实际实现图片下载，我们需要在`parse`或相关解析方法中，对每个抓取的响应进行处理。通常，我们会检查响应体是否包含图片链接，然后使用`Request`对象下载图片，并通过`item`对象将下载的图片保存起来。`DoubanImgsItem`可能是定义的一个自定义Item类，用于存储图片信息，包括图片链接、图片名等。总结来说，这个示例展示了如何使用Scrapy框架创建一个基本的图片爬虫，涉及了Spider类的定义、HTTP头设置、URL生成以及可能的ImagesPipeline集成。实际操作时，还需要添加图片识别和下载的逻辑，以及配置存储路径。通过这个例子，学习者可以了解Scrapy如何高效地抓取网络上的图片资源，并且可以进一步扩展爬虫功能，比如处理多种图片格式、异常处理等。

使用使用scrapy ImagesPipeline爬取图片资源的示例代码爬取图片资源的示例代码

这是一个使用scrapy的ImagesPipeline爬取下载图片的示例，生成的图片保存在爬虫的full文件夹里。

scrapy startproject DoubanImgs

cd DoubanImgs

scrapy genspider download_douban douban.com

vim spiders/download_douban.py

# coding=utf-8

from scrapy.spiders import Spider

import re

from scrapy import Request

from ..items import DoubanImgsItem

class download_douban(Spider):

name = 'download_douban'

default_headers = {

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',

'Accept-Encoding': 'gzip, deflate, sdch, br',

'Accept-Language': 'zh-CN,zh;q=0.8,en;q=0.6',

'Cache-Control': 'max-age=0',

'Connection': 'keep-alive',

'Host': 'www.douban.com',

'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko)

Chrome/52.0.2743.116 Safari/537.36',

}

def __init__(self, url='1638835355', *args, **kwargs):

self.allowed_domains = ['douban.com'] self.start_urls = [] for i in xrange(23):

if i == 0:

page_url = 'http://www.douban.com/photos/album/' + url

else:

page_url = 'http://www.douban.com/photos/album/' + url + '/?start=' + str(i*18)

self.start_urls.append(page_url)

self.url = url

# call the father base function

# super(download_douban, self).__init__(*args, **kwargs)

def start_requests(self):

for url in self.start_urls:

yield Request(url=url, headers=self.default_headers, callback=self.parse)

def parse(self, response):

list_imgs = response.xpath('//div[@class="photolst clearfix"]//img/@src').extract()

if list_imgs:

item = DoubanImgsItem()

item['image_urls'] = list_imgs

yield item

vim settings.py

# -*- coding: utf-8 -*-

# Scrapy settings for DoubanImgs project

# For simplicity, this file contains only settings considered important or

# commonly used. You can find more settings consulting the documentation:

# https://doc.scrapy.org/en/latest/topics/settings.html

# https://doc.scrapy.org/en/latest/topics/downloader-middleware.html

# https://doc.scrapy.org/en/latest/topics/spider-middleware.html

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38575118

粉丝: 3
资源: 923

scrapy教程：实战示例——使用ImagesPipeline爬取豆瓣图片

Scrapy ImagesPipeline下载图片

python使用 Scrapy 爬取唯美女生网站的图片资源

Python Scrapy图片爬取原理及代码实例

scrapy爬取图片存入mysql

通过一个实际的项目，来学习如何使用scrapy爬取网络上的信息

python 基于Scrapy框架抓取图片

Python3爬虫爬取英雄联盟高清桌面壁纸功能示例【基于Scrapy框架】

scrapy爬虫框架测试代码-斗鱼图片

利用scrapy爬小姐姐图片

python scrapy 爬虫 下载并保存图片

最新资源

python scrapy 爬虫下载并保存图片