Python Scrapy入门：自定义start_request与qidian爬虫示例

185 浏览量更新于2024-08-29 1 收藏 70KB PDF 举报

在本篇关于Python Scrapy爬虫入门的文章中，作者深入介绍了如何使用Scrapy框架编写一个基本的爬虫，主要关注的是爬虫的核心组成部分以及一个具体的示例。Scrapy是一个强大的网络爬虫框架，适合高效地抓取网页数据。首先，实现爬虫功能需要遵循以下四个步骤： 1. **定义spider类**：这是爬虫的基础结构，通常继承自Scrapy的`Spider`类，如`hotSalesSpider`类。定义爬虫时，需要给它一个唯一的名称，如`name='hot2'`，以便于Scrapy识别。 2. **确定spider的名称**：这个名称在项目中是唯一的，用于标识特定的爬虫实例。在`hotSalesSpider`中，名称被设置为`hot2`。 3. **获取初始化请求（start_request）**：通过`start_requests()`方法，指定爬虫的起始URL，并可能设置特定的请求头（例如伪装浏览器）。在这个示例中，`start_requests()`函数定义了爬虫要抓取的初始网址（`url="https://www.qidian.com/rank/hotsales?style=1"`），并设置了用户代理（`headers`）来模拟浏览器行为，同时指定了解析数据的回调函数`callback=self.qidian_parse`。 4. **解析数据（parse()）**：这是爬虫的核心功能，负责处理响应数据，提取所需信息。在`qidian_parse()`函数中，使用XPath表达式选择网页中的小说信息，如名称、作者、类型和形式，并通过`.extract()`方法获取这些元素的值。具体到示例1，它演示了如何重写`start_request()`方法，以实现爬虫的动态行为。通过创建`Request`对象，设置了请求的URL、自定义的headers（模仿浏览器）以及数据处理函数`callback`。这样，当Scrapy执行此请求时，会调用`qidian_parse()`函数对响应进行解析。本篇文章是关于Scrapy爬虫的基础教程，重点讲解了如何通过编写一个名为`hotSalesSpider`的类，结合`start_request()`和`parse()`方法，定制一个能够伪装成浏览器访问指定网站并提取小说信息的爬虫。理解并实践这些步骤是掌握Scrapy爬虫编程的基础。

Python scrapy 爬虫入门（三）爬虫入门（三）scrapy 爬虫示例爬虫示例

1 爬虫示例爬虫示例

要实现爬虫功能，只要执行四个步骤：

定义spider 类

确定 spider 的名称（name）

获取初始化请求（start_request）

解析数据 parse()

1.1 示例示例1 重写重写 start_request() 方法方法

示例1：重写 start_request() 方法，

1）将爬虫伪装成浏览器。

2）设置新的解析数据的回调函数（不使用默认的parse()）

from scrapy import Request

from scrapy.spiders import Spider

class hotSalesSpider(Spider):

# 定义爬虫名称

name = 'hot2'

# 设置用户代理（浏览器类型）

qidian_headers = {"User-Agent": "Mozilla/"

"5.0(Windows NT 10.0; "

"Win64; x64) AppleWebKit/"

"537.36 (KHTML, like Gecko) Chrome/"

"79.0.3945.130 Safari/"

"537.36"}

# 获取初始化 request

def start_requests(self):

url = "https://www.qidian.com/rank/hotsales?style=1"

# 生成请求对象，设置url，headers,callback

yield Request(url, headers=self.qidian_headers, callback=self.qidian_parse)

# 解析函数

def qidian_parse(self, response):

list_selector = response.xpath("//div[@class='book-mid-info']")

# 依次读取每部小说的元素，从中获取名称，作者，类型和形式

for one_selector in list_selector:

# 获取小说的名称

name = one_selector.xpath("h4/a/text()").extract()[0] # 获取作者

author = one_selector.xpath("p[1]/a[1]/text()").extract()[0] # 获取类型

type = one_selector.xpath("p[1]/a[2]/text()").extract()[0] # 获取形式

form = one_selector.xpath("p[1]/span/text()").extract()[0] # 将爬取到的一部小说保存到字典

hot_dict = {"name": name, "author": author, "type": type, "form": form}

# 使用 yield 返回字典

yield hot_dict

1.2 示例示例2 使用使用 css 选择器选择器

使用 css 表达式替换 xpath 表达式来解析数据：

from scrapy import Request

from scrapy.spiders import Spider

class hotSalesSpider(Spider):

# 定义爬虫名称

name = 'hot3'

# 设置用户代理（浏览器类型）

qidian_headers = {"User-Agent": "Mozilla/"

"5.0(Windows NT 10.0; "

"Win64; x64) AppleWebKit/"

"537.36 (KHTML, like Gecko) Chrome/"

"79.0.3945.130 Safari/"

"537.36"}

# 获取初始化 request

def start_requests(self):

url = "https://www.qidian.com/rank/hotsales?style=1"

# 生成请求对象，设置url，headers,callback

yield Request(url, headers=self.qidian_headers, callback=self.qidian_parse)

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38651445

粉丝: 7

Python Scrapy入门：自定义start_request与qidian爬虫示例

Python Scrapy爬虫框架入门教程

Python Scrapy爬虫框架学习完整示例

深入探索Python Scrapy爬虫框架

pythonscrapy爬虫实例Python爬虫Scrapy实例

Python Scrapy 爬虫框架demo

python scrapy爬虫-下载图片

python scrapy 爬虫 下载并保存图片

python scrapy爬虫+存储到mysql和mongo数据库中

Python Scrapy爬虫框架学习笔记

Python Scrapy爬虫开发与部署实践指南

最新资源

python scrapy 爬虫下载并保存图片