requests爬取数据教程
时间: 2024-09-26 20:12:27 浏览: 39
requests是一个非常流行的Python库,用于发送HTTP请求并获取响应。下面是一个简单的教程,教你如何使用requests爬取数据:
1. **安装requests**:
首先需要确保已经安装了requests库。如果没有安装,可以使用pip进行安装:
```
pip install requests
```
2. **发送GET请求**:
使用`requests.get()`函数发起GET请求。例如,爬取URL "https://example.com" 的HTML内容:
```python
import requests
response = requests.get('https://example.com')
html_content = response.text
```
`response`变量包含了服务器的响应信息,`text`属性则是获取到的纯文本内容。
3. **处理响应状态码**:
确保请求成功很重要,检查响应的状态码:
```python
if response.status_code == 200:
# 请求成功
else:
print(f"请求失败: {response.status_code}")
```
4. **发送POST请求**:
对于需要提交表单的数据,可以使用`requests.post()`,例如:
```python
data = {'key': 'value'}
response = requests.post('https://api.example.com/data', data=data)
```
5. **处理JSON数据**:
如果返回的是JSON格式,可以使用`json()`方法解析:
```python
json_data = response.json()
```
6. **错误处理**:
考虑加入异常处理,如网络连接中断、超时等:
```python
try:
response = requests.get('http://unreachable.com', timeout=5)
except requests.exceptions.RequestException as e:
print(f"请求出错: {e}")
```
7. **设置代理或认证**:
如果有需要,可以通过`proxies`或`auth`参数设置代理或基本认证。
阅读全文