使用python爬取百度近两天的前十个热搜,进行分词并生成词云图。
时间: 2024-03-31 20:34:54 浏览: 132
好的,这个问题我可以回答。以下是实现这个任务的Python代码:
```python
import requests
from bs4 import BeautifulSoup
import jieba
from wordcloud import WordCloud
# 爬取近两天的百度热搜
url = 'http://top.baidu.com/buzz?b=1&fr=topindex'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
hot_list = soup.select('.list-table tr .keyword')
# 提取热搜词并进行分词
hot_words = []
for hot in hot_list:
hot_words.append(hot.text)
text = ' '.join(hot_words)
words = jieba.cut(text)
# 生成词云图
wordcloud = WordCloud(width=800, height=800, background_color='white').generate(' '.join(words))
wordcloud.to_file('hot_search.png')
```
这段代码使用了requests库和BeautifulSoup库来爬取百度热搜榜单,并使用jieba库对热搜词进行分词。最后使用wordcloud库生成词云图,并将其保存到本地的hot_search.png文件中。
阅读全文