利用scrapy爬取某城市天气预报的代码

时间: 2023-09-15 09:21:35 浏览: 107

scrapy爬取cosplay图片并保存到本地指定文件夹

其实关于scrapy的很多用法都没有使用过,需要多多巩固和学习 1.首先新建scrapy项目 scrapy startproject 项目名称然后进入创建好的项目文件夹中创建爬虫 (这里我用的是CrawlSpider) scrapy genspider -t crawl 爬虫名称域名 2.然后打开pycharm打开scrapy项目记得要选正确项目包的路径要包含scrapy.cfg 要不然在后面会导致导入包错误以及无法运行爬虫 3.编写Item,确定你要爬取的目标 import scrapy class CosplayItem(scrapy.Item): """ 标题 co Scrapy 是一个强大的 Python 网络爬虫框架，用于高效地抓取网站内容并处理数据。在这个场景中，我们讨论的是如何使用 Scrapy 来爬取 cosplay 相关的图片，并将它们保存到本地的指定文件夹。下面将详细解释整个过程。 1. **创建 Scrapy 项目**：你需要通过命令行创建一个新的 Scrapy 项目。运行 `scrapy startproject 项目名称`，这会生成一个包含默认结构的项目文件夹。例如，如果你的项目名为 "CosplayCrawler"，则命令会创建一个名为 "CosplayCrawler" 的文件夹。 2. **创建爬虫**：进入创建的项目文件夹，然后创建一个新的爬虫。由于你在这里使用的是 `CrawlSpider` 类型，你可以使用 `scrapy genspider -t crawl 爬虫名称域名` 命令，例如 `scrapy genspider -t crawl cosplay_crawler www.cosplaymore.com`。这将创建一个名为 "cosplay_crawler" 的爬虫文件。 3. **编写 Item**：在项目的 `items.py` 文件中定义你需要爬取的数据结构。例如，创建一个名为 `CosplayItem` 的类，它继承自 `scrapy.Item`。在这个类中，你可以定义字段来存储标题、信息和图片 URL，如以下代码所示： ```python import scrapy class CosplayItem(scrapy.Item): title = scrapy.Field() information = scrapy.Field() pic_url = scrapy.Field() ``` 4. **编写主爬虫文件**：在 `spiders` 目录下，编辑 `cosplay_crawler.py` 文件，定义你的爬虫类。这个类需要继承自 `CrawlSpider`，并设置一些关键属性，如爬虫名称、允许的域名、起始 URL 和爬取规则。规则定义了如何从页面中提取链接并决定是否需要跟进。例如： ```python from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule from Cosplay.items import CosplayItem class CosplayCrawlSpider(CrawlSpider): name = 'cosplay_crawl' allowed_domains = ['www.cosplaymore.com'] start_urls = ['https://www.cosplaymore.com/list-30-1.html'] rules = ( # 解析每个图片详情页面 Rule(LinkExtractor(allow=r'/show-.*?-1.html'), callback='parse_picture', follow=False), # 解析下一页 Rule(LinkExtractor(allow=r'list-30-'), callback='parse_item', follow=True), ) def parse_item(self, response): pass # 不需要处理总览页面内容 def parse_picture(self, response): title = response.css('div.title > h1::text').get() information = response.css('div.title > ul> li::text').getall() url_list = response.css('div.show_cos > div.con > p > img::attr("src")').getall() new_item = CosplayItem(title=title, information=information, pic_url=url_list) yield new_item ``` 5. **编写管道（Pipelines）**：管道用于处理爬取到的数据。在这里，我们需要一个管道来保存图片。在项目的 `pipelines.py` 文件中创建一个类，例如 `CosplayPipeline`，该类需要继承自 `scrapy.pipelines.files.FilesPipeline`。然后，覆盖 `process_item` 方法以处理 Item 并保存图片。同时，确保在 `settings.py` 文件中启用该管道。例如： ```python import os from scrapy.pipelines.images import ImagesPipeline from Cosplay.settings import IMAGES_STORE class CosplayPipeline(object): def process_item(self, item, spider): item['information'] = str(item['information']) url_list = item['pic_url'] new_list = [] for url in url_list: if len(url) == 41 or len(url) == 42: url = 'https://www.cosplaymore.com' + url new_list.append(url) item['pic_url'] = new_list return item # 在 settings.py 中启用 CosplayPipeline ITEM_PIPELINES = { 'Cosplay.pipelines.CosplayPipeline': 300, } ``` 为了保存图片，你还需要配置 `IMAGES_STORE` 变量，指定一个本地目录来存放下载的图片。例如，在 `settings.py` 中添加： ```python IMAGES_STORE = '/path/to/save/images' ``` 现在，你的 Scrapy 爬虫已经准备好抓取指定网站上的 cosplay 图片了。运行 `scrapy crawl cosplay_crawl` 命令启动爬虫，它将自动抓取图片信息，处理数据，并将图片保存到本地指定的文件夹中。在实际应用中，你可能需要根据目标网站的具体结构调整 CSS 选择器，以确保正确地提取数据和图片链接。同时，还要注意处理可能出现的网络问题、反爬策略以及遵守网站的 robots.txt 规则。

下面是利用Scrapy爬取某城市天气预报的代码示例： ```python import scrapy class WeatherSpider(scrapy.Spider): name = "weather" start_urls = ["http://www.weather.com.cn/weather/101010100.shtml"] def parse(self, response): city = response.css(".crumbs.fl a::text").get() date = response.css("#7d .t::text").getall() weather = response.css("#7d .wea::text").getall() temperature_high = response.css("#7d .tem span::text").getall()[::2] temperature_low = response.css("#7d .tem span::text").getall()[1::2] wind_direction = response.css("#7d .win i::text").getall()[::2] wind_strength = response.css("#7d .win i::text").getall()[1::2] for i in range(7): yield { "city": city, "date": date[i], "weather": weather[i], "temperature_high": temperature_high[i], "temperature_low": temperature_low[i], "wind_direction": wind_direction[i], "wind_strength": wind_strength[i] } ``` 说明： - `name`：爬虫的名称。 - `start_urls`：爬虫的起始URL。 - `parse`：解析响应的方法。 - `response.css()`：使用CSS选择器获取页面元素。 - `yield`：返回一个字典，包含天气信息。在终端中运行以下命令即可启动爬虫： ```bash scrapy runspider weather_spider.py -o weather.csv ``` 其中，`-o` 参数指定了输出文件的格式和路径。这里我们输出为 CSV 格式的文件 `weather.csv`。

阅读全文

利用scrapy爬取某城市天气预报的代码

相关推荐

利用Scrapy框架爬取智联招聘职位信息指南

Scrapy爬取斗图网操作流程详解

使用scrapy爬取全国所有城市的天气信息

精选_python爬取天气_源码打包

【python网络爬虫】-爬取天气数据

基于python的网络爬虫爬取天气数据及可视化分析python大作业，课程设计报告

python案例源代码

心知天气的获取

使用Scrapy爬取博客园博客内容教程

使用Scrapy爬取哈佛商业评论文章列表

PaddleTS 是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验

白色大气风格的乐器爱好者网站模板下载.zip

海外派遣员工管理守则.docx

flowable-demo-master

图书管理系统-数据库设计报告.docx

白色风格的手机网站模板下载.rar

白色淡雅风的商务企业网站模板下载.zip

白色大气风格的企业站通用整站网站源码下载.zip

PCle AI加速卡在医疗影像诊断中的应用.docx

最新推荐

python爬虫框架scrapy实战之爬取京东商城进阶篇

Python爬虫实例——scrapy框架爬取拉勾网招聘信息

Python爬虫之Scrapy（爬取csdn博客）

PaddleTS 是一个易用的深度时序建模的Python库，它基于飞桨深度学习框架PaddlePaddle，专注业界领先的深度模型，旨在为领域专家和行业用户提供可扩展的时序建模能力和便捷易用的用户体验

白色大气风格的乐器爱好者网站模板下载.zip

RStudio中集成Connections包以优化数据库连接管理

管理建模和仿真的文件

Keil uVision5全面精通指南

flink提交给yarn19个全量同步MYsqlCDC的作业，flink的配置参数怎样设置

PHP博客旅游的探索之旅