使用scrapy框架爬取豆瓣电影
时间: 2023-10-01 17:11:12 浏览: 116
Python利用Scrapy框架爬取豆瓣电影示例
好的,下面是爬取豆瓣电影信息的Scrapy爬虫代码:
```python
import scrapy
class DoubanMovieSpider(scrapy.Spider):
name = 'douban_movie'
allowed_domains = ['movie.douban.com']
start_urls = ['https://movie.douban.com/top250']
def parse(self, response):
for movie in response.xpath('//div[@class="info"]'):
yield {
'title': movie.xpath('div[@class="hd"]/a/span[@class="title"]/text()').extract_first(),
'rating': movie.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').extract_first(),
'director': movie.xpath('div[@class="bd"]/p[1]/text()').extract()[0].strip().split(':')[1],
'actors': movie.xpath('div[@class="bd"]/p[2]/text()').extract()[1].strip().split(':')[1]
}
next_page = response.xpath('//span[@class="next"]/a/@href')
if next_page:
yield response.follow(next_page[0], self.parse)
```
运行该爬虫后,它将爬取豆瓣电影Top250的电影信息,包括电影名称、评分、导演和演员,并将结果保存在JSON文件中。您需要在Scrapy项目中创建一个名为`spiders`的文件夹,并将该代码保存在其中的名为`douban_movie.py`的文件中。
阅读全文