scrapy项目实例
时间: 2023-09-20 15:13:19 浏览: 54
下面是一个简单的Scrapy项目实例,用于爬取豆瓣电影Top250的电影名称、评分和简介:
1. 创建Scrapy项目:在命令行中使用以下命令创建一个新的Scrapy项目:
```
scrapy startproject douban_movies
```
这将创建一个名为`douban_movies`的文件夹,其中包含Scrapy项目的初始结构。
2. 创建爬虫:进入项目文件夹,使用以下命令创建一个爬虫:
```
scrapy genspider movies_spider movie.douban.com
```
这将在`spiders`文件夹中创建一个名为`movies_spider`的爬虫文件,并指定要爬取的网站。
3. 编写爬虫代码:打开刚创建的爬虫文件(位于`spiders`文件夹中),并按以下方式编写爬虫逻辑:
```python
import scrapy
class MoviesSpider(scrapy.Spider):
name = 'movies_spider'
start_urls = ['https://movie.douban.com/top250']
def parse(self, response):
movies = response.xpath('//ol[@class="grid_view"]/li')
for movie in movies:
title = movie.xpath('.//span[@class="title"]/text()').get()
rating = movie.xpath('.//span[@class="rating_num"]/text()').get()
summary = movie.xpath('.//span[@class="inq"]/text()').get()
yield {
'title': title,
'rating': rating,
'summary': summary
}
next_page = response.xpath('//span[@class="next"]/a/@href').get()
if next_page:
yield response.follow(next_page, self.parse)
```
4. 配置项目设置:在项目文件夹中的`settings.py`文件中,可以进行一些配置,如设置User-Agent、调整并发请求数等。
5. 运行爬虫:在命令行中使用以下命令运行爬虫:
```
scrapy crawl movies_spider -o movies.csv
```
这将启动爬虫,并将爬取的数据保存到名为`movies.csv`的CSV文件中。
以上是一个简单的Scrapy项目实例,用于爬取豆瓣电影Top250的电影信息。您可以根据需要对代码进行修改和扩展,以适应其他网站的爬取任务。请确保遵守网站的爬取规则和法律法规。