scrapy爬取豆瓣电影top250代码
时间: 2023-09-02 07:07:29 浏览: 51
好的,以下是Scrapy爬取豆瓣电影Top250的代码:
1. 创建一个新的Scrapy项目:
```
scrapy startproject douban_movie_top250
```
2. 创建一个新的Spider:
```
cd douban_movie_top250
scrapy genspider douban_movie_spider movie.douban.com
```
3. 在新生成的douban_movie_spider.py文件中,添加如下代码:
```python
import scrapy
class DoubanMovieSpider(scrapy.Spider):
name = 'douban_movie_spider'
start_urls = ['https://movie.douban.com/top250']
def parse(self, response):
for movie in response.xpath('//div[@class="info"]'):
yield {
'title': movie.xpath('div[@class="hd"]/a/span[1]/text()').extract_first(),
'rating': movie.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').extract_first(),
'link': movie.xpath('div[@class="hd"]/a/@href').extract_first()
}
next_page = response.xpath('//span[@class="next"]/a/@href')
if next_page:
yield response.follow(next_page[0], self.parse)
```
4. 在终端中输入以下命令启动爬虫:
```
scrapy crawl douban_movie_spider -o douban_movie_top250.csv
```
其中,-o参数指定输出的文件名,可以是.csv、.json、.jl等格式。
5. 爬虫运行完成后,可以在项目根目录下找到输出的csv文件,里面包含了Top250电影的标题、评分和链接等信息。
以上就是Scrapy爬取豆瓣电影Top250的基本流程和代码。