用python实现对https://www.tianqi.com/的运用scripy框架的爬虫
时间: 2023-08-10 07:09:04 浏览: 162
使用python编写的scrapy爬虫项目
4星 · 用户满意度95%
好的,以下是使用Scrapy框架爬取https://www.tianqi.com/的步骤:
1. 创建Scrapy项目
在命令行中输入以下命令:
```
scrapy startproject tianqi
```
这将创建一个名为`tianqi`的Scrapy项目。
2. 创建Spider
在`tianqi/spiders`目录下创建一个名为`tianqi_spider.py`的文件,并添加以下代码:
```python
import scrapy
class TianqiSpider(scrapy.Spider):
name = "tianqi"
start_urls = [
"https://www.tianqi.com/",
]
def parse(self, response):
for item in response.css('div.wea_tips.clearfix ul li'):
yield {
'date': item.css('h3::text').get(),
'weather': item.css('p.wea::text').get(),
'temperature': item.css('p.tem::text').get(),
}
```
在这个Spider中,我们定义了`name`属性为`tianqi`,并设置`start_urls`为要爬取的网址。`parse()`方法是Scrapy默认的回调函数,用于处理`start_urls`中的响应。在这个方法中,我们使用CSS选择器选择天气预报信息,并将其输出为字典格式。
3. 运行Spider
在命令行中,进入`tianqi`项目目录,输入以下命令:
```
scrapy crawl tianqi -o tianqi.csv
```
这会运行我们刚刚创建的Spider,并将结果输出到`tianqi.csv`文件中。
4. 结果验证
在`tianqi`项目目录中,打开`tianqi.csv`文件,可以看到爬取到的天气预报信息。
阅读全文