在爬取https://guba.eastmoney.com/list,300059.html?from=BaiduAladdin时出现如下错误:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 248: invalid continuation byte 写出解决方法
时间: 2023-06-14 12:03:06 浏览: 81
Guba_Xueqiu_Crawler:搜寻来自guba.eastmoney.com和xueqiu.com的帖子
这个错误通常是由于爬取的网页编码不是UTF-8而导致的。可以尝试以下方法解决:
1. 使用requests库的content属性获取网页内容时,使用response.encoding = 'gbk'指定编码为gbk,即response.content.decode('gbk')。
2. 在使用BeautifulSoup解析网页时,指定编码为gbk,即bsObj = BeautifulSoup(html, 'html.parser', from_encoding='gbk')。
3. 如果以上方法仍然无法解决问题,可以尝试使用chardet库自动检测网页编码,并进行相应的解码操作。例如:
```python
import requests
import chardet
from bs4 import BeautifulSoup
response = requests.get(url)
html = response.content
encoding = chardet.detect(html)['encoding']
html = html.decode(encoding)
bsObj = BeautifulSoup(html, 'html.parser')
```
这样就可以根据网页自动检测其编码,并将其进行解码操作。
阅读全文