简述scrapy五大核心组件
时间: 2023-09-12 11:12:28 浏览: 119
大数据爬虫技术第11章 Scrapy终端与核心组件.ppt
Scrapy是一个Python编写的开源网络爬虫框架,它的五大核心组件包括:
1.引擎(Engine):是Scrapy的核心,负责控制整个爬虫流程的运行,包括调度器(Scheduler)、下载器(Downloader)和管道(Pipeline)等组件的协调工作。
2.调度器(Scheduler):负责接受引擎发送过来的请求,并将其加入到队列中,等待下载器进行下载。同时,调度器还会根据一定的策略,从队列中选择一定数量的请求发送给下载器进行处理。
3.下载器(Downloader):负责将调度器发送过来的请求进行处理,并将响应数据返回给引擎。下载器还可以处理一些请求的中间件,如代理、用户代理等。
4.爬虫(Spider):负责定义爬取网站的规则,包括起始URL、如何跟踪链接、如何解析页面等。爬虫会将爬取到的数据交给管道进行处理。
5.管道(Pipeline):负责处理爬虫爬取到的数据,包括清洗、去重、存储等。管道可以定义多个,用于对不同类型的数据进行处理。
阅读全文