python爬取虎扑评论_python-2:爬取某个网页(虎扑)帖子的标题做词云图
时间: 2023-08-14 22:08:37 浏览: 195
好的,这是一个关于使用 Python 爬取虎扑帖子标题并生成词云图的简单示例。首先,你需要安装以下库:
- requests:用于发送 HTTP 请求和获取响应内容
- BeautifulSoup4:用于解析 HTML 页面
- jieba:用于中文分词
- wordcloud:用于生成词云图
安装完毕后,你可以按照以下步骤进行操作:
1. 导入所需库
```
import requests
from bs4 import BeautifulSoup
import jieba
from wordcloud import WordCloud
```
2. 发送 HTTP 请求并获取响应内容
```
url = 'https://bbs.hupu.com/40084625.html'
response = requests.get(url)
html = response.content.decode('utf-8')
```
这里以虎扑 NBA 板块的一个帖子为例,使用 requests 库发送 GET 请求并获取响应内容,将响应内容使用 utf-8 编码转换为字符串。
3. 解析 HTML 页面并获取帖子标题
```
soup = BeautifulSoup(html, 'html.parser')
title = soup.title.string
```
使用 BeautifulSoup4 库解析 HTML 页面,并获取页面中的标题。
4. 对标题进行中文分词
```
words = ' '.join(jieba.cut(title))
```
使用 jieba 库对标题进行中文分词,结果以空格连接。
5. 生成词云图
```
wordcloud = WordCloud(font_path='SimHei.ttf').generate(words)
wordcloud.to_file('wordcloud.png')
```
使用 wordcloud 库生成词云图,指定字体为微软雅黑,并保存为 PNG 格式的图片。
完整代码如下:
```
import requests
from bs4 import BeautifulSoup
import jieba
from wordcloud import WordCloud
url = 'https://bbs.hupu.com/40084625.html'
response = requests.get(url)
html = response.content.decode('utf-8')
soup = BeautifulSoup(html, 'html.parser')
title = soup.title.string
words = ' '.join(jieba.cut(title))
wordcloud = WordCloud(font_path='SimHei.ttf').generate(words)
wordcloud.to_file('wordcloud.png')
```
希望这个简单的示例能够帮助你理解如何使用 Python 爬取虎扑帖子标题并生成词云图。
阅读全文