pycharm scrapy爬虫案例
时间: 2023-06-05 10:47:05 浏览: 292
PyCharm是一款Python集成开发环境,Scrapy是一个Python爬虫框架。结合使用PyCharm和Scrapy可以方便地开发和调试爬虫程序。
以下是一个Scrapy爬虫案例:
假设我们要爬取豆瓣电影Top250的电影名称、评分和简介。首先,在PyCharm中创建一个Scrapy项目,命名为douban_top250。
然后,在项目中创建一个Spider,命名为douban_spider。在Spider中定义start_urls为豆瓣电影Top250的网址,使用parse方法解析网页内容,提取电影名称、评分和简介,并将结果保存到一个CSV文件中。
代码如下:
```python
import scrapy
class DoubanSpider(scrapy.Spider):
name = 'douban_spider'
start_urls = ['https://movie.douban.com/top250']
def parse(self, response):
for movie in response.xpath('//div[@class="info"]'):
yield {
'title': movie.xpath('div[@class="hd"]/a/span[@class="title"]/text()').extract_first(),
'rating': movie.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').extract_first(),
'summary': movie.xpath('div[@class="bd"]/p[@class="quote"]/span[@class="inq"]/text()').extract_first(),
}
next_page = response.xpath('//span[@class="next"]/a/@href')
if next_page:
yield response.follow(next_page[], self.parse)
```
运行爬虫程序,即可得到一个名为douban_top250.csv的文件,其中包含了豆瓣电影Top250的电影名称、评分和简介。
阅读全文
相关推荐














