首页pycharm scrapy爬虫案例

pycharm scrapy爬虫案例

时间: 2023-06-05 13:47:05 浏览: 293

PyCharm是一款Python集成开发环境，Scrapy是一个Python爬虫框架。结合使用PyCharm和Scrapy可以方便地开发和调试爬虫程序。以下是一个Scrapy爬虫案例：假设我们要爬取豆瓣电影Top250的电影名称、评分和简介。首先，在PyCharm中创建一个Scrapy项目，命名为douban_top250。然后，在项目中创建一个Spider，命名为douban_spider。在Spider中定义start_urls为豆瓣电影Top250的网址，使用parse方法解析网页内容，提取电影名称、评分和简介，并将结果保存到一个CSV文件中。代码如下： ```python import scrapy class DoubanSpider(scrapy.Spider): name = 'douban_spider' start_urls = ['https://movie.douban.com/top250'] def parse(self, response): for movie in response.xpath('//div[@class="info"]'): yield { 'title': movie.xpath('div[@class="hd"]/a/span[@class="title"]/text()').extract_first(), 'rating': movie.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').extract_first(), 'summary': movie.xpath('div[@class="bd"]/p[@class="quote"]/span[@class="inq"]/text()').extract_first(), } next_page = response.xpath('//span[@class="next"]/a/@href') if next_page: yield response.follow(next_page[], self.parse) ``` 运行爬虫程序，即可得到一个名为douban_top250.csv的文件，其中包含了豆瓣电影Top250的电影名称、评分和简介。

阅读全文