Scrapy框架安装与快速入门详解

196 浏览量更新于2024-08-28 收藏 75KB PDF 举报

Scrapy是一款强大的Python爬虫框架，专为高效、可维护的网络数据抓取而设计。本文档将详细介绍如何安装Scrapy以及其在开发过程中的关键概念和使用技巧。首先，安装Scrapy是入门的第一步。在Ubuntu系统上，由于依赖关系，你需要先确保安装了Python开发环境（python-dev）、pip工具以及与解析XML和XSLT相关的库（libxml2-dev、libxslt1-dev、zlibig-dev、libffi-dev、libssl-dev）。通过运行`sudo apt-get install`命令完成这些依赖的安装，然后再使用`pip install scrapy`进行Scrapy的安装。而在Windows系统中，由于pypiwin32模块的特殊性，可能需要额外安装它，以防出现安装错误。 Scrapy项目的基本结构包括以下几个核心组件： 1. **items.py**：存放爬虫从网页抓取的数据模型，用于定义数据结构。 2. **middlewares.py**：存放各种中间件，如请求拦截、错误处理和数据处理等功能。 3. **pipelines.py**：处理爬取数据的逻辑，通常包括清洗、存储或进一步处理步骤。 4. **settings.py**：项目全局配置文件，设置请求头、请求频率、代理服务器等关键参数。 5. **scrapy.cfg**：项目的配置文件，包含更具体的信息。 6. **spiders** 文件夹：存放所有的爬虫脚本，每个脚本对应一个特定的网站或任务。 Scrapy的核心工作流程是通过Spider类实现的。创建一个新的爬虫项目时，使用`scrapy startproject 项目名`命令，随后初始化一个新爬虫，例如`scrapy genspider 爬虫名称需要爬取的网站URL`。启动爬虫项目时，只需在命令行输入`scrapy crawl 爬虫名称`。在爬虫过程中，Scrapy的`response`对象是关键，它是一个`scrapy.http.response.html.HTMLResponse`对象，支持使用XPath和CSS选择器来解析HTML内容。通过`response.xpath()`和`response.css()`方法，开发者可以获取到需要的数据。数据通常是Selector或SelectorList形式，如果需要获取文本，可以使用`getall()`获取所有文本值，或者使用`get()`获取第一个文本值，返回类型分别为列表和字符串。为了将解析后的数据传递给Pipeline进行后续处理，开发者需要在`parse()`函数中使用`yield`关键字。这允许将item对象逐个返回，Scrapy会自动处理这些item，并根据配置的管道进行存储、清洗或进一步分析。 Scrapy是一个功能强大且灵活的爬虫框架，通过合理的项目结构和响应式API，使得网络数据抓取变得更加高效和易维护。熟练掌握Scrapy的安装、配置和爬虫编写技巧，将有助于你在数据抓取领域取得成功。

爬虫框架爬虫框架Scrapy

Scrapy笔记笔记

安装安装

安装: 通过pip install scrapy 即可安装

Scrapy官方文档: https://scrapy.org/en/latest

注意:

在ubuntu上安装scrapy之前需要安装以下依赖:

sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlibig-dev libffi-dev libssl-dev, 然后在通过pip install scrapy

安装

如果是windows系统,需要使用pip install pypiwin32安装pypiwin32,否则可能出现错误

快速入门快速入门

创建scrapy工程: scrapy startproject 项目名

初始化工程: scrapy genspider 爬虫名称需要爬取的网站

启动scrapy项目: scrapy crawl 爬虫名称

开始更改ROBOTSTXT_OBEY = False,打开request_headers

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7gSsQsXi-1586171584570)(Scrapy笔

记.assets/image-20200405161045601.png)]

items.py:用来存放爬虫爬取下来数据的模型。

middlewares.py:用来存放各种中间件的文件。

pipelines.py:用来将items 的模型存储到本地磁盘中。

settings.py:本爬虫的一-些配置信息(比如请求头、多久发送一-次请求、ip代理池等)。

scrapy.cfg: 项目的配置文件。

spiders包:以后所有的爬虫,都是存放到这个里面。

爬虫笔记爬虫笔记

response是一个scrapy.http.response.html.HTMLResponse对象,可以使用xpath和css来提取数据

提取出来的数据是一个Seletor或则是一个SelectorList对象,如果想要获取字符串,那么应该执行getall 或则get方法

getall方法:获取的是Selector中的文本,返回的是一个列表

get方法:获取的是Selector中的第一个文本,返回的是一个str类型

如果数据解析回来,要传给pipline处理,那么可以使用yield来返回,或则是收集所有的item,最后统一使用return返回

item:建议在items.py定义好模型

pipeline: 专门用来保存数据的,其中三个方法是经常用的

open-spider(self, spider):当爬虫被打开的时候执行

process_item(self, item,spider): 当爬虫有itme传过来的时候会被调用

close_spider(self,spider):当爬虫关闭的时候会调用

要激活pipline,应该再settings.py中,设置ITEM_PIPELINES

JsonItemExporter和和JsonLinesItemExporter

保存json数据的时候,可以使用这两个类,让操作变得更加简单

JsonItemExporter:这个是每次把数据添加到内存中,最后一次写入磁盘中,好处是储存的数据是一个json规则的数据,坏处是如果

数据量大,会比较耗内存

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38522529

粉丝: 2
资源: 917

Scrapy框架安装与快速入门详解

Python爬虫框架Scrapy教程 完整版PDF

精通Python爬虫框架Scrapy.pdf

Python爬虫框架Scrapy教程《PDF文档》

python爬虫爬虫框架Scrapy简介.md

Python爬虫框架Scrapy

scrapy_Python的爬虫框架Scrapy_scrapy_

Python爬虫框架Scrapy实例代码

Python 爬虫框架Scrapy ITEM PIPELINE

Python爬虫框架Scrapy详细介绍

详解Python的爬虫框架 Scrapy

最新资源

Python爬虫框架Scrapy教程完整版PDF