首页爬取豆瓣top250具体代码

爬取豆瓣top250具体代码

时间: 2024-05-06 07:14:28 浏览: 124

要爬取豆瓣电影TOP250的数据，通常可以使用Python语言的爬虫框架Scrapy来完成。以下是一个简单的Scrapy爬虫的代码示例： 1. 在命令行中创建Scrapy项目 ``` scrapy startproject douban_top250 ``` 2. 创建一个Spider 在douban_top250/spiders目录下创建一个名为douban_spider.py的文件，然后添加以下代码： ``` import scrapy class DoubanSpider(scrapy.Spider): name = "douban" allowed_domains = ["movie.douban.com"] start_urls = [ "https://movie.douban.com/top250" ] def parse(self, response): for movie in response.css('div.item'): yield { 'title': movie.css('span.title::text').extract_first(), 'rating': movie.css('span.rating_num::text').extract_first(), 'link': movie.css('a::attr(href)').extract_first() } next_page = response.css('span.next a::attr(href)').extract_first() if next_page is not None: yield response.follow(next_page, self.parse) ``` 3. 运行Spider 在命令行中运行以下命令： ``` scrapy crawl douban -o douban_top250.csv ``` 这会将爬取到的数据存储到名为douban_top250.csv的文件中。

阅读全文