首页scrapy爬虫爬取豆瓣电影

scrapy爬虫爬取豆瓣电影

时间: 2023-10-01 18:12:38 浏览: 57

好的，您想了解如何使用Scrapy爬虫爬取豆瓣电影数据，是吗？那我来为您介绍一下。首先，您需要创建一个Scrapy项目，可以使用以下命令： ``` scrapy startproject douban_movie ``` 然后，进入项目目录并创建一个名为`douban.py`的Spider，代码如下： ```python import scrapy class DoubanSpider(scrapy.Spider): name = 'douban' allowed_domains = ['movie.douban.com'] start_urls = ['https://movie.douban.com/top250'] def parse(self, response): for movie in response.css('.item'): yield { 'title': movie.css('.title::text').get(), 'rating': movie.css('.rating_num::text').get(), 'summary': movie.css('.inq::text').get(), } next_page = response.css('.next a::attr(href)').get() if next_page is not None: yield response.follow(next_page, self.parse) ``` 这个Spider会爬取豆瓣电影Top250列表页面的电影信息，包括电影标题、评分和简介。同时，它还会自动跟进列表页面的下一页链接，直到爬取完所有电影信息。最后，您可以使用以下命令运行Spider并将结果保存到JSON文件中： ``` scrapy crawl douban -o movies.json ``` 这样，您就可以成功爬取豆瓣电影数据了。希望对您有所帮助。