scrapy爬虫爬取豆瓣电影
时间: 2023-10-01 18:12:38 浏览: 57
好的,您想了解如何使用Scrapy爬虫爬取豆瓣电影数据,是吗?那我来为您介绍一下。
首先,您需要创建一个Scrapy项目,可以使用以下命令:
```
scrapy startproject douban_movie
```
然后,进入项目目录并创建一个名为`douban.py`的Spider,代码如下:
```python
import scrapy
class DoubanSpider(scrapy.Spider):
name = 'douban'
allowed_domains = ['movie.douban.com']
start_urls = ['https://movie.douban.com/top250']
def parse(self, response):
for movie in response.css('.item'):
yield {
'title': movie.css('.title::text').get(),
'rating': movie.css('.rating_num::text').get(),
'summary': movie.css('.inq::text').get(),
}
next_page = response.css('.next a::attr(href)').get()
if next_page is not None:
yield response.follow(next_page, self.parse)
```
这个Spider会爬取豆瓣电影Top250列表页面的电影信息,包括电影标题、评分和简介。同时,它还会自动跟进列表页面的下一页链接,直到爬取完所有电影信息。
最后,您可以使用以下命令运行Spider并将结果保存到JSON文件中:
```
scrapy crawl douban -o movies.json
```
这样,您就可以成功爬取豆瓣电影数据了。希望对您有所帮助。