Python爬虫入门：Requests库详解与常用方法

版权申诉

176 浏览量更新于2024-09-11 收藏 98KB PDF 举报

"Python爬虫入门——Requests库" 在Python中，网络爬虫是获取和处理网页数据的重要手段，而Requests库则是Python中最常用的HTTP客户端库，它提供了简单易用的接口来发送各种HTTP请求。本篇文章将重点介绍Requests库的基本使用，特别是其几个主要的方法，以及如何使用这些方法进行网页数据的抓取。首先，了解HTTP协议是学习爬虫的基础，因为爬虫本质上就是通过HTTP协议与服务器进行通信。HTTP协议包含了多种请求方法，如GET、POST、HEAD等，Requests库正是通过这些方法来模拟浏览器的行为。 1. Requests库的主要方法： - `requests.request()`：这是所有请求方法的基础，可以设置自定义的HTTP方法。通过传递`method`参数，你可以指定任意的HTTP请求类型，例如GET、POST等。 - `requests.get()`：这是最常用的方法，用于获取HTML网页的内容。它对应HTTP协议的GET请求，通常用于从服务器获取静态资源。 - `requests.head()`：这个方法仅获取HTML网页的头部信息，不返回整个页面内容，对应HTTP的HEAD请求，适用于快速检查页面是否存在或更新情况。 - `requests.post()`：用于向HTML页面提交POST请求，常用于表单提交、登录等场景，可以携带数据发送到服务器。 - `requests.put()`：用于向HTML页面发送PUT请求，用于更新已有资源，对应HTTP的PUT方法。 - `requests.patch()`：提交局部修改，对应HTTP的PATCH方法，适用于部分更新某个资源。 - `requests.delete()`：用于删除资源，对应HTTP的DELETE方法。在使用这些方法时，可以通过`params`参数传递URL的额外参数，而`**kwargs`可以用来设置更多的请求选项，比如超时时间、验证方式、代理等。 2. Requests中的重要对象： - `Response`对象：当发送一个请求后，Requests返回的是一个`Response`对象，其中包含了服务器的响应。你可以从中获取HTTP状态码、响应内容（如HTML文本）、头部信息等。例如，`r.text`可以获取到HTML内容，`r.status_code`则表示HTTP状态码。 - `Request`对象：虽然在Requests库中我们通常不直接创建`Request`对象，但它代表了发出的HTTP请求。在内部，`requests.get()`等方法会创建并发送`Request`对象。 3. 请求参数的使用： - `params`参数：用于添加URL查询参数，例如`requests.get('http://example.com', params={'key': 'value'})`会在URL后面添加`?key=value`。 - `data`参数：在`post`请求中，`data`用于提交表单数据，通常是字典或字节流格式。 - `json`参数：用于发送JSON格式的数据，例如`requests.post('http://example.com', json={'key': 'value'})`。 - `**kwargs`参数：可以设置其他的请求选项，如`headers`（自定义HTTP头部）、`cookies`（设置cookie）、`proxies`（设置代理服务器）等。掌握这些基本的使用方法后，你可以开始编写简单的爬虫程序，获取网页的HTML内容，进一步解析提取所需数据。但要注意，爬虫过程中应遵守网站的robots.txt规则，尊重版权，并避免对服务器造成过大负担。在实际应用中，你可能还需要学习如何处理反爬机制、解析HTML文档（如使用BeautifulSoup库）以及存储和分析抓取的数据等内容。

Python爬虫入门爬虫入门——Requests库库

学习爬虫之前呢，最好要对HTTP协议有了解，我前面有写过几篇关于HTTP协议的文章，建议读者阅读一下，对爬虫帮

助很大。

1. requests 库的几个主要方法库的几个主要方法

方法方法说明说明

requests.request（）构造一个网页请求，支撑以下各方法的基础方法

requests.get（）获取HTML网页的主要方法，对应于HTTP的GET

requests.head（）获取HTML网页头信息的主要方法，对应于HTTP的HEAD

requests.post（）向HTML页面提交POST请求的方法，对应于HTTP的POST

requests.put（）向HTML页面提交PUT请求的主要方法，对应于HTTP的PUT

requests.patch（）向HTML页面提交局部修改请求，对应于HTTP的PATCH

requests.delete（）向HTML页面提交删除请求，对应于HTTP的DELETE

最常用的get方法：

requests.get(url,params=None,**kwargs)

url：

params：url中的额外参数，字典或字节流格式，可选字段可选字段。

**kwargs：12个控制访问参数，可选字段可选字段（后面会具体讲解每个参数的含义）

其他几个方法如下：

requests.request（method，url，**kwargs）

requests.post（url，data=None，json=None，**kwargs）

requests.head（url，**kwargs）

requests.put（url，data=None，**kwargs）

requests.patch（url，data=None，**kwargs）

requests.delete（url，**kwargs）

PS：这里要说明一下：

r = requests.request(method='GET', url=url, **kwargs)

r = requests.get(url, **kwargs)

这两句代码的意思完全一样，只是为了方便，做了一层封装而已。

2. Requests中两个重要的对象中两个重要的对象

r = requests.get(url)

r：是一个Response对象对象，一个包含服务器资源的对象，Request对象包含爬虫返回的内容。

.get(url)：是一个Request对象对象，构造一个向服务器请求资源的Request。

PS：这两个对象指的就是就是HTTP协议中的请求和响应报文。

常见的Response对象的属性：

属性属性说明说明

r.status_code HTTP 请求的返回状态，200表示连接成功，404表示失败

r.text HTTP响应内容的字符串形式，即，url对应的页面内容

r.encoding

从HTTP header中猜测的响应内容的编码方式

r.apparent_encoding 从内容中分析出的响应内容编码方式（备选编码方式）

r.content HTTP响应内容的二进制形式

r.headers HTTP响应内容的头部信息

3. **kwargs 控制访问的参数控制访问的参数

**kwargs：控制访问的参数，均为可选项

参数参数说明说明

params 字典或字节序列，作为参数增加到url中。

data

字典、字节序列或文件对象，作为Request的内容，放在url链接对应位置的地方，作为数据来存储

json JSON数据格式，作为Request的内容

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38706951

粉丝: 4
资源: 930

Python爬虫入门：Requests库详解与常用方法

Windows下安装Python及其第三方库与VScode编程环境

python 报错：No module named 'requests 解决办法

解决已经安装requests,却依然提示No module named requests问题

python爬虫招聘网站数据分析_Python爬虫实例——基于招聘网站发帖数据

python爬虫入门教程

python爬虫入门案例

python爬虫入门教程(非常详细) pdf 下载

python爬虫入门教程(非常详细)

python 爬虫入门考试 选择题

python爬虫json和requests

最新资源

python 爬虫入门考试选择题