"Scrapy的基础命令与文件含义简介"

需积分: 0 7 浏览量更新于2024-01-16 收藏 13.24MB DOCX 举报

Scrapy是一个强大的网络爬虫框架，可以用于快速、高效地提取和处理网页数据。通过使用Scrapy，可以轻松地创建一个爬虫项目，定义爬取目标字段，并编写爬虫规则来实现对网页数据的抓取和解析。本文将介绍Scrapy框架的基本用法和相关命令，帮助读者快速上手Scrapy的使用。首先，需要注意的是Scrapy中的xpath与lxml中的xpath有所不同。在lxml中，通过取text()可以直接返回文本对象，而在Scrapy中返回的是一个xpath对象。需要注意这一点，以免在使用xpath时出现错误。在使用Scrapy之前，需要在pycharm的terminal界面下输入scrapy，以查看当前支持的命令。同时，需要确保当前的interpreter已切换至scrapy的解释器，以便能够正常运行scrapy命令。接下来，开始爬取之前需要新建一个scrapy项目。可以通过cd命令切换至一个新的目录下，然后输入scrapy startproject projectname来初始化一个scrapy项目。之后，需在spiders文件夹下生成一个基础模板的spider文件，可以用scrapy genspider spidername "baidu.com"命令来实现。此外，还有其他命令可以用来生成基于其他高级模板的spider文件。在项目中的各个文件中，有着不同的含义。在items文件中配置了爬取的目标字段，这些字段可以是各种类型，如MP4、MP3等。在该文件中，需要手动添加目标字段，这些字段必须声明才能返回pipes处理。对于目标字段的类型，不需要额外声明，保留了Python弱类型的特点。统一实例化scrapy.Field()对象并赋值即可。另外，在爬虫spider文件中定义了具体的爬取规则和代码。通过编写爬虫规则，可以定制化地实现对网页数据的抓取和解析。同时，可以在这里定义网络请求的参数和请求头信息，以及处理不同响应的逻辑。总之，Scrapy框架是一个功能强大且灵活的网络爬虫工具，通过上述介绍，相信读者可以对Scrapy有一个初步的了解，并且能够快速上手使用Scrapy框架进行网络爬取和数据处理。希望本文能够帮助读者更好地使用Scrapy，并能够在实际项目中发挥作用。

6、 spider 文件中的 parse 函数传入的 response 参数，默认可以直接调用 xpath，如

response.xpath(“//div[@class=”some class”]”)就可以选出部分节点。但是需要注意的

是，scrapy 的 xpath 不同于 lxml 中的 xpath，取了 text()直接返回的就是文本对象，这

里返回的是一个 xpath 对象，其形式大概是 selector 这样：有 xpath 语句，和 data 值

构成，且将中文进行了 unicode 编码。

此时需要使用.extract()方法将其内容提取出来，默认 utf-8 处理中文。

注：Xpath 语法也支持./格式，指在当前节点下取其余节点内容，另外不论是否 extract

返回的结果对象都是列表形式的，同 lxml 的返回值（注意取 0 号元素或者遍历使用）。

7、 spider 文件或爬虫程序的执行，是在当前目录下直接 terminal 输入 scrapy crawl

spider_name 就可以运行了，如果我们在 parse 函数或者 pipes 函数中指定了 print 输出，

则 print 会在 terminal 中输出。另外，如果指定了文件的本地写入，则需注意路径问题，

如果是相对路径下写入，则 cd 到那个目录在那个目录生成运行的结果文件。

8、 spider 中的 parse 函数将对请求的 response 进行处理，并且将处理的结果 return 给引擎，

注意这个 return 是必须的，否则信号将中断，不能进行后续的请求。Parse return 的东

西不一定非得是 items 格式的东西，引擎拿到 spider 类 parse 函数的返回值后，会对该

返回值类型进行判断，如果是 items 类型（只要是继承父类 scarpy.Items 的类对象都

算），则将该 return 结果转交 pipes 文件中的 process_item 函数进行进一步处理。

如果 parse 函数返回的并非 items 类型，则引擎将其保留在内存中一个回合，直到下次

接受新的 parse 返回值，但是引擎不会对其做任何处理，除非用-o 处理到本地，否则就

没用了。此时建议直接在 parse 函数中，直接进行 with open 存储比较方便。

另外，terminal 下执行 scrapy crawl spider_name -o file.json 命令，可以直接指定在当前目录

下生成对应的 json 文件。即将 parse 的 return 值直接写出来到本地。

剩余25页未读，继续阅读

地图帝

粉丝: 25
资源: 297

"Scrapy的基础命令与文件含义简介"

Scrapy框架学习：安装升级与数据处理

Scrapy爬虫框架入门教程

Scrapy入门：创建与解析Spiders

scrapy笔记

scrapy学习笔记

Scrapy学习笔记-Scrapy入门Following links

Scrapy学习笔记-Scrapy入门之创建爬虫

自己整理的Scrapy爬虫笔记

python爬虫基础包含scrapy框架笔记

Scrapy学习笔记-基本库的使用urllib

最新资源