利用Scrapy爬取cosplay图片并保存至本地

163 浏览量更新于2024-08-30 收藏 750KB PDF 举报

本篇文章主要介绍了如何使用Scrapy框架爬取cosplay图片并将其保存到本地文件夹的过程。Scrapy是一个强大的Python爬虫框架，适合进行高效的数据抓取。以下是详细的步骤和关键知识点： 1. **新建Scrapy项目**：首先，你需要创建一个新的Scrapy项目。在命令行中输入`scrapy startproject 项目名称`，这会自动生成一个基础的Scrapy项目结构。在这个项目中，CrawlSpider是常用的一种爬虫类型，因为它可以自动遵循网站链接。 2. **创建爬虫**：在项目目录下，使用`scrapy genspider -t crawl 爬虫名称域名`命令创建一个名为`CrawlSpider`的爬虫。这个命令会生成必要的文件，包括`spiders`文件夹中的`cosplay_crawl.py`，其中包含了爬虫的基本结构。 3. **设置Item**：在`CosplayItem`类中，定义了三个字段：`title`（标题）、`information`（cosplay信息）和`pic_url`（图片URL）。这是数据抓取的基础，用于存储从网页上提取的信息。 4. **编写主爬虫**：主爬虫`CosplayCrawlSpider`继承自`CrawlSpider`，设置了爬虫的名字、允许的域名和起始URL。`LinkExtractor`用于定义抓取规则，如允许访问特定模式的链接。这里有两条规则：一条是针对每一套图片详情页面，使用`callback='parse_picture'`来调用解析图片的函数；另一条是匹配下一页链接，使用`follow=True`表示继续追踪。 - `parse_item`函数负责处理列表页，这里选择不解析内容，因为可能不需要。 - `parse_picture`函数通过CSS选择器获取图片详情页中的图片标题和URL，并进行相应的解析和保存。 5. **运行和保存图片**：为了将图片保存到本地，你需要在`parse_picture`函数中下载图片并决定保存的路径。这通常涉及到使用`response.request.url`获取图片URL，然后通过`response.download()`或`request.meta['download_func'](response, meta)`下载图片，并根据需要将其保存到本地指定的文件夹。 6. **注意事项**： - 在PyCharm中运行Scrapy项目时，确保选择正确的项目路径，包括`scrapy.cfg`文件，以避免导入包错误。 - 如果遇到网络问题或反爬虫策略，可能需要调整请求头、设置延迟或使用代理IP。 - 定期更新Scrapy到最新版本，了解和应用新的特性和改进。通过这些步骤，你可以有效地使用Scrapy爬取cosplay图片并将其组织在本地文件夹中，同时确保遵守网站的robots.txt规则，避免对目标网站造成过大负担。实践过程中，可能会遇到各种问题，但Scrapy提供了丰富的文档和社区支持，可以帮助你解决。

scrapy爬取爬取cosplay图片并保存到本地指定文件夹图片并保存到本地指定文件夹

其实关于scrapy的很多用法都没有使用过,需要多多巩固和学习

1.首先新建首先新建scrapy项目项目

scrapy startproject 项目名称

然后进入创建好的项目文件夹中创建爬虫然后进入创建好的项目文件夹中创建爬虫 (这里我用的是这里我用的是CrawlSpider)

scrapy genspider -t crawl 爬虫名称域名

2.然后打开然后打开pycharm打开打开scrapy项目项目记得要选正确项目包的路径要包含记得要选正确项目包的路径要包含scrapy.cfg 要不然在后面会导致导入包错误以及无法运行爬虫要不然在后面会导致导入包错误以及无法运行爬虫

3.编写编写Item,确定你要爬取的目标确定你要爬取的目标

import scrapy

class CosplayItem(scrapy.Item):

"""

标题

cosplay的信息

图片的url地址

"""

title = scrapy.Field()

information = scrapy.Field()

pic_url = scrapy.Field()

4.编写主爬虫文件编写主爬虫文件,制定规则以及提取信息制定规则以及提取信息

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from Cosplay.items import CosplayItem

class CosplayCrawlSpider(CrawlSpider):

name = 'cosplay_crawl'

allowed_domains = ['www.cosplaymore.com'] start_urls = ['https://www.cosplaymore.com/list-30-1.html']

rules = (

# 每个页面每套图片详情

Rule(LinkExtractor(allow=r'/show-.*?-1.html'), callback='parse_picture', follow=False),

# 下一页

Rule(LinkExtractor(allow=r'list-30-'), callback='parse_item', follow=True),

)

def parse_item(self, response):

# 不需要解析总览页面内容

pass

def parse_picture(self, response):

title = response.css('div.title > h1::text').get()

information = response.css('div.title > ul> li::text').getall()

url_list = response.css('div.show_cos > div.con > p > img::attr("src")').getall()

new_item = CosplayItem(title=title, information=information, pic_url=url_list)

yield new_item

5.编写管道编写管道pipelines处理数据以及保存图片处理数据以及保存图片

保存图片参照了别人的写法 https://blog.csdn.net/qq_31235811/article/details/88935856

import os

from scrapy.pipelines.images import ImagesPipeline

from Cosplay.settings import IMAGES_STORE

from scrapy.http import Request

class CosplayPipeline(object):

def process_item(self, item, spider):

"""

1.将信息列表转换成字符串方便拼接文件名

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38720997

粉丝: 7
资源: 888

利用Scrapy爬取cosplay图片并保存至本地

使用scrapy爬取伯乐在线文章并保存到mysql

scrapy爬取伯乐在线博客文章保存到本地数据库

scrapy爬取itpub博客文章保存到本地mysql

用scrapy爬取下载某图片网站的全部图片

Scrapy爬取百度图片的Demo

scrapy 爬取 ik123 精品图片

scrapy爬取图片保存

scrapy 爬取图片

scrapy爬取贝壳图片

Scrapy爬取的图片src链接怎么将图片保存下来

最新资源