python爬虫网页崩溃怎么处理_《Python网络爬虫》1.2 爬取网页的异常处理
时间: 2023-07-19 15:53:11 浏览: 70
python爬虫.rar_python_python爬取图片_python爬虫_爬虫
当Python爬虫爬取网页时,有可能会遇到各种各样的异常情况,比如网络连接超时、网页不存在、服务器禁止爬取等等。这时候我们需要对这些异常情况进行处理,以保证程序的稳定性和可靠性。
下面是一些常见的处理方法:
1. 网络连接超时:使用try...except语句捕获异常,并设置超时时间。
```python
import requests
try:
response = requests.get(url, timeout=10)
# 处理返回结果
except requests.exceptions.Timeout:
# 超时异常处理
```
2. 网页不存在:使用try...except语句捕获异常,并根据HTTP状态码判断是否存在。
```python
import requests
try:
response = requests.get(url)
if response.status_code == 404:
# 网页不存在异常处理
else:
# 处理返回结果
except requests.exceptions.RequestException:
# 请求异常处理
```
3. 服务器禁止爬取:设置User-Agent和Referer,避免被服务器禁止访问。
```python
import requests
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
'Referer': 'https://www.baidu.com'
}
try:
response = requests.get(url, headers=headers)
# 处理返回结果
except requests.exceptions.RequestException:
# 请求异常处理
```
以上是常见的异常处理方法,还有其他的异常情况需要根据具体情况进行处理。在实际开发中,我们需要不断积累经验,提高自己的异常处理能力。
阅读全文