爬取html中文乱码
时间: 2023-11-15 22:56:47 浏览: 185
解决web中文乱码
5星 · 资源好评率100%
可以尝试使用Python的requests库获取网页内容,然后使用BeautifulSoup库解析HTML文档,最后使用encode()方法将文本编码为UTF-8格式。具体代码如下:
```python
import requests
from bs4 import BeautifulSoup
url = 'http://example.com'
response = requests.get(url)
html = response.content.decode('utf-8')
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text().encode('utf-8')
```
其中,url是要爬取的网页地址,response.content获取网页内容,soup.get_text()获取文本内容,最后使用encode()方法将文本编码为UTF-8格式。
阅读全文