爬取豆瓣top250具体代码
时间: 2024-05-06 07:14:28 浏览: 124
要爬取豆瓣电影TOP250的数据,通常可以使用Python语言的爬虫框架Scrapy来完成。以下是一个简单的Scrapy爬虫的代码示例:
1. 在命令行中创建Scrapy项目
```
scrapy startproject douban_top250
```
2. 创建一个Spider
在douban_top250/spiders目录下创建一个名为douban_spider.py的文件,然后添加以下代码:
```
import scrapy
class DoubanSpider(scrapy.Spider):
name = "douban"
allowed_domains = ["movie.douban.com"]
start_urls = [
"https://movie.douban.com/top250"
]
def parse(self, response):
for movie in response.css('div.item'):
yield {
'title': movie.css('span.title::text').extract_first(),
'rating': movie.css('span.rating_num::text').extract_first(),
'link': movie.css('a::attr(href)').extract_first()
}
next_page = response.css('span.next a::attr(href)').extract_first()
if next_page is not None:
yield response.follow(next_page, self.parse)
```
3. 运行Spider
在命令行中运行以下命令:
```
scrapy crawl douban -o douban_top250.csv
```
这会将爬取到的数据存储到名为douban_top250.csv的文件中。
阅读全文