使用Python scrapy进行爬取https://movie.douban.com/top250?start=0&filter=并用json文件保存
时间: 2024-06-08 18:06:19 浏览: 137
好的,以下是使用Python scrapy进行爬取豆瓣电影top250并用json文件保存的代码:
1. 首先,在命令行中输入以下命令以创建一个新的scrapy项目:
```
scrapy startproject douban_movie
```
2. 进入douban_movie/spiders目录并创建一个名为douban_spider.py的新文件。将以下代码复制到该文件中:
```python
import scrapy
import json
class DoubanSpider(scrapy.Spider):
name = 'douban'
allowed_domains = ['movie.douban.com']
start_urls = ['https://movie.douban.com/top250?start=0&filter=']
def parse(self, response):
for movie in response.xpath('//div[@class="info"]'):
yield {
'title': movie.xpath('div[@class="hd"]/a/span[@class="title"]/text()').extract_first(),
'rating': movie.xpath('div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').extract_first(),
'link': movie.xpath('div[@class="hd"]/a/@href').extract_first(),
}
next_page = response.xpath('//span[@class="next"]/a/@href')
if next_page:
yield response.follow(next_page[0], self.parse)
```
3. 在命令行中进入douban_movie目录并输入以下命令以运行爬虫并将结果保存到名为movies.json的文件中:
```
scrapy crawl douban -o movies.json
```
4. 爬虫将开始运行并在控制台上显示结果。爬虫运行完成后,将在douban_movie目录中创建movies.json文件,其中包含从豆瓣电影top250网站爬取的电影数据。
阅读全文