【基础】使用Requests进行网页抓取
发布时间: 2024-06-28 23:04:48 阅读量: 84 订阅数: 131
![【基础】使用Requests进行网页抓取](https://img-blog.csdn.net/20170311143557081)
# 2.1 Requests库的安装
Requests库是一个强大的HTTP库,可以轻松地发送HTTP请求并获取响应。要安装Requests库,请在命令提示符或终端中运行以下命令:
```
pip install requests
```
安装完成后,就可以在Python脚本中导入Requests库:
```python
import requests
```
# 2. Requests库的安装和使用
### 2.1 Requests库的安装
Requests库是一个用于发送HTTP请求的Python库,它提供了简洁易用的API,可以方便地获取网页内容。要安装Requests库,可以使用pip命令:
```
pip install requests
```
安装完成后,就可以在Python脚本中导入Requests库:
```
import requests
```
### 2.2 Requests库的基本使用
Requests库的基本使用非常简单,只需要调用get()或post()方法即可发送HTTP请求。
**GET请求**
GET请求用于获取资源,例如网页内容。发送GET请求的语法如下:
```
response = requests.get(url)
```
其中:
* `url`是要获取的网页地址。
* `response`是请求的响应对象,它包含了请求的结果。
**POST请求**
POST请求用于提交数据,例如表单数据。发送POST请求的语法如下:
```
response = requests.post(url, data)
```
其中:
* `url`是要提交数据的网页地址。
* `data`是要提交的数据,可以是字典或字符串。
**响应对象**
发送HTTP请求后,会得到一个响应对象。响应对象包含了请求的结果,包括响应状态码、响应头和响应内容。
**响应状态码**
响应状态码表示请求是否成功。常见的响应状态码有:
* 200 OK:请求成功。
* 403 Forbidden:禁止访问。
* 404 Not Found:资源不存在。
**响应头**
响应头包含了有关响应的元信息,例如内容类型、编码方式等。
**响应内容**
响应内容是请求获取的实际内容,可以是HTML、JSON或其他格式。
# 3. 网页抓取实践
### 3.1 GET请求和POST请求
在网页抓取中,HTTP请求是获取网页内容的主要手段。HTTP请求分为两种主要类型:GET请求和POST请求。
#### 3.1.1 GET请求
GET请求是最常用的HTTP请求类型,用于从服务器获取资源。GET请求的语法如下:
```python
requests.get(url, params=None, **kwargs)
```
其中:
* `url`:要请求的资源的URL。
* `params`:一个字典,包含要发送给服务器的查询参数。
GET请求的查询参数附加在URL之后,以问号(?)开头,参数之间用&符号分隔。例如,以下请求获取`example.com`网站的根目录,并指定查询参数`name`为`John`:
```python
requests.get("https://example.com/?name=John")
```
#### 3.1.2 POST请求
POST请求用于向服务器发送数据。POST请求的语法如下:
```python
requests.post(url, data=None, json=None, **kwargs)
```
其中:
* `url`:要请求的资源的URL。
* `data`:一个字典或字节串,包含要发送给服务器的数据。
* `json`:一个字典或列表,包含要发送给服务器的JSON数据。
POST请求的数据附加在请求正文中。例如,以下请求向`example.com`网站的`/submit`端点发送一个包含`name`和`email`键值对的JSON数据:
```python
data = {"name": "John", "email": "john@example.com"}
requests.post("https://example.com/submit", json=data)
```
0
0