Scrapy怎么用管道将爬取到的图片src链接下载保存本地

时间: 2024-10-25 10:13:44 浏览: 20

scrapy爬取cosplay图片并保存到本地指定文件夹

其实关于scrapy的很多用法都没有使用过,需要多多巩固和学习 1.首先新建scrapy项目 scrapy startproject 项目名称然后进入创建好的项目文件夹中创建爬虫 (这里我用的是CrawlSpider) scrapy genspider -t crawl 爬虫名称域名 2.然后打开pycharm打开scrapy项目记得要选正确项目包的路径要包含scrapy.cfg 要不然在后面会导致导入包错误以及无法运行爬虫 3.编写Item,确定你要爬取的目标 import scrapy class CosplayItem(scrapy.Item): """ 标题 co Scrapy 是一个强大的 Python 网络爬虫框架，用于高效地抓取网站内容并处理数据。在这个场景中，我们讨论的是如何使用 Scrapy 来爬取 cosplay 相关的图片，并将它们保存到本地的指定文件夹。下面将详细解释整个过程。 1. **创建 Scrapy 项目**：你需要通过命令行创建一个新的 Scrapy 项目。运行 `scrapy startproject 项目名称`，这会生成一个包含默认结构的项目文件夹。例如，如果你的项目名为 "CosplayCrawler"，则命令会创建一个名为 "CosplayCrawler" 的文件夹。 2. **创建爬虫**：进入创建的项目文件夹，然后创建一个新的爬虫。由于你在这里使用的是 `CrawlSpider` 类型，你可以使用 `scrapy genspider -t crawl 爬虫名称域名` 命令，例如 `scrapy genspider -t crawl cosplay_crawler www.cosplaymore.com`。这将创建一个名为 "cosplay_crawler" 的爬虫文件。 3. **编写 Item**：在项目的 `items.py` 文件中定义你需要爬取的数据结构。例如，创建一个名为 `CosplayItem` 的类，它继承自 `scrapy.Item`。在这个类中，你可以定义字段来存储标题、信息和图片 URL，如以下代码所示： ```python import scrapy class CosplayItem(scrapy.Item): title = scrapy.Field() information = scrapy.Field() pic_url = scrapy.Field() ``` 4. **编写主爬虫文件**：在 `spiders` 目录下，编辑 `cosplay_crawler.py` 文件，定义你的爬虫类。这个类需要继承自 `CrawlSpider`，并设置一些关键属性，如爬虫名称、允许的域名、起始 URL 和爬取规则。规则定义了如何从页面中提取链接并决定是否需要跟进。例如： ```python from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from Cosplay.items import CosplayItem class CosplayCrawlSpider(CrawlSpider): name = 'cosplay_crawl' allowed_domains = ['www.cosplaymore.com'] start_urls = ['https://www.cosplaymore.com/list-30-1.html'] rules = ( # 解析每个图片详情页面 Rule(LinkExtractor(allow=r'/show-.*?-1.html'), callback='parse_picture', follow=False), # 解析下一页 Rule(LinkExtractor(allow=r'list-30-'), callback='parse_item', follow=True), ) def parse_item(self, response): pass # 不需要处理总览页面内容 def parse_picture(self, response): title = response.css('div.title > h1::text').get() information = response.css('div.title > ul> li::text').getall() url_list = response.css('div.show_cos > div.con > p > img::attr("src")').getall() new_item = CosplayItem(title=title, information=information, pic_url=url_list) yield new_item ``` 5. **编写管道（Pipelines）**：管道用于处理爬取到的数据。在这里，我们需要一个管道来保存图片。在项目的 `pipelines.py` 文件中创建一个类，例如 `CosplayPipeline`，该类需要继承自 `scrapy.pipelines.files.FilesPipeline`。然后，覆盖 `process_item` 方法以处理 Item 并保存图片。同时，确保在 `settings.py` 文件中启用该管道。例如： ```python import os from scrapy.pipelines.images import ImagesPipeline from Cosplay.settings import IMAGES_STORE class CosplayPipeline(object): def process_item(self, item, spider): item['information'] = str(item['information']) url_list = item['pic_url'] new_list = [] for url in url_list: if len(url) == 41 or len(url) == 42: url = 'https://www.cosplaymore.com' + url new_list.append(url) item['pic_url'] = new_list return item # 在 settings.py 中启用 CosplayPipeline ITEM_PIPELINES = { 'Cosplay.pipelines.CosplayPipeline': 300, } ``` 为了保存图片，你还需要配置 `IMAGES_STORE` 变量，指定一个本地目录来存放下载的图片。例如，在 `settings.py` 中添加： ```python IMAGES_STORE = '/path/to/save/images' ``` 现在，你的 Scrapy 爬虫已经准备好抓取指定网站上的 cosplay 图片了。运行 `scrapy crawl cosplay_crawl` 命令启动爬虫，它将自动抓取图片信息，处理数据，并将图片保存到本地指定的文件夹中。在实际应用中，你可能需要根据目标网站的具体结构调整 CSS 选择器，以确保正确地提取数据和图片链接。同时，还要注意处理可能出现的网络问题、反爬策略以及遵守网站的 robots.txt 规则。

在Scrapy中，你可以使用`Pipelines`来处理爬取的数据，包括下载图片并保存到本地。以下是设置图片下载管道的一个示例： 1. **配置Pipeline**[^1]: 在`settings.py`文件中，添加或更新`ITEM_PIPELINES`设置以启用图片下载管道： ```python ITEM_PIPELINES = { 'your_project_name.pipelines.ImageDownloadPipeline': 300, } ``` 其中，`ImageDownloadPipeline`是你自定义的下载图片的类名。 2. **编写ImageDownloadPipeline**[^2]: 创建一个名为`pipelines.py`的新文件，定义`ImageDownloadPipeline`： ```python from scrapy.exceptions import DropItem from scrapy.pipelines.images import ImagesPipeline from urllib.parse import urlparse class ImageDownloadPipeline(ImagesPipeline): def get_media_requests(self, item, info): if 'img_url' in item: yield scrapy.Request(item['img_url']) def download_item(self, response, item, info): img_url = response.url parsed_img_url = urlparse(img_url) filename = parsed_img_url.path.split('/')[-1] with open(f'saved_images/{filename}', 'wb') as f: f.write(response.body) if not filename.lower().endswith(('.jpg', '.jpeg', '.png', '.gif')): raise DropItem("Invalid image format") return item ``` 这个管道会在下载每个图像URL时，解析URL获取文件名，然后将响应体保存到本地`saved_images`目录下的相应文件名中。

阅读全文

Scrapy怎么用管道将爬取到的图片src链接下载保存本地

相关推荐

scrapy框架爬取图片资源

Python Scrapy图片爬取原理及代码实例

Scrapy爬取的图片src链接怎么将图片保存下来

python使用 Scrapy 爬取唯美女生网站的图片资源

利用Scrapy框架爬取妹子圖

scrapy爬取海贼王漫画

scrapy爬取网页图片的代码

头歌实训答案:Scrapy爬虫之网站图片爬取

Scrapy管道爬取不了https://www.dygod.net/d/file/html/images/2024-04-09/c271ee8c6ca433850090a3a10e1367d3.jpg

利用scrapy爬小姐姐图片

python 基于Scrapy框架抓取图片

scrapy爬虫框架测试代码-斗鱼图片

scrapy笔记

源码_爬取图片_python_

利用scrapy框架实现图片下载并个性化命名

使用Scrapy下载和存储图片

【进阶篇】高级Scrapy实践：定制中间件和管道

python爬虫用scrpy管道爬取二手房信息代码

只需要用一张图片素材文档选择器.zip

最新推荐

python爬虫框架scrapy实战之爬取京东商城进阶篇

Python爬虫实例——scrapy框架爬取拉勾网招聘信息

Python爬虫之Scrapy（爬取csdn博客）

只需要用一张图片素材文档选择器.zip

火炬连体网络在MNIST的2D嵌入实现示例

管理建模和仿真的文件

L2正则化的终极指南：从入门到精通，揭秘机器学习中的性能优化技巧

如何构建一个符合GB/T19716和ISO/IEC13335标准的信息安全事件管理框架，并确保业务连续性规划的有效性？

Angular插件增强Application Insights JavaScript SDK功能

"互动学习：行动中的多样性与论文攻读经历"