爬虫教程——用Scrapy爬取豆瓣TOP250
时间: 2023-11-20 12:07:41 浏览: 106
基于scrapy爬取豆瓣top250
好的,下面我来为你介绍一下如何使用Scrapy爬取豆瓣TOP250电影信息。
1. 安装Scrapy
首先,你需要安装Scrapy。如果你已经安装了Python,可以在命令行中使用以下命令安装Scrapy:
```
pip install Scrapy
```
2. 创建Scrapy项目
接下来,我们需要创建一个Scrapy项目。在命令行中输入以下命令:
```
scrapy startproject douban_top250
```
这将会在当前目录下创建一个名为“douban_top250”的文件夹,其中包含了Scrapy项目的基本结构。
3. 编写爬虫代码
在“douban_top250/spiders”目录下创建一个名为“douban.py”的文件,并输入以下代码:
```python
import scrapy
class DoubanSpider(scrapy.Spider):
name = 'douban'
allowed_domains = ['movie.douban.com']
start_urls = ['https://movie.douban.com/top250']
def parse(self, response):
for movie in response.xpath('//div[@class="hd"]'):
yield {
'title': movie.xpath('.//span[@class="title"]/text()').extract_first(),
'rating': movie.xpath('../div[@class="bd"]/div[@class="star"]/span[@class="rating_num"]/text()').extract_first(),
'link': movie.xpath('.//a/@href').extract_first(),
}
next_page = response.xpath('//span[@class="next"]/a/@href')
if next_page:
yield response.follow(next_page[0], self.parse)
```
这段代码定义了一个名为“DoubanSpider”的类,用于爬取豆瓣电影TOP250的电影名称、评分和链接。在这个类中,我们使用了XPath选择器来定位页面中的元素。
4. 运行爬虫
在命令行中进入“douban_top250”文件夹,并输入以下命令来运行爬虫:
```
scrapy crawl douban -o douban_top250.csv
```
这将会运行刚才编写的“DoubanSpider”爬虫,并将结果保存在名为“douban_top250.csv”的文件中。
至此,你已经学会了如何使用Scrapy来爬取豆瓣TOP250电影信息。
阅读全文