使用python和chrome浏览器爬取近两天的微博热搜,并进行分词,生成词云图。
时间: 2024-04-21 16:27:12 浏览: 198
基于python爬取新浪微博爬虫以及生成词云源码.zip
5星 · 资源好评率100%
好的,这个问题我可以回答。首先,我们需要安装一些必要的Python库,如selenium、jieba、wordcloud等。然后,我们可以编写Python代码来实现这个任务:
```python
from selenium import webdriver
import time
import jieba
from wordcloud import WordCloud
# 创建一个chrome浏览器对象
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless') # 无头模式,即不显示浏览器窗口
browser = webdriver.Chrome(options=chrome_options)
# 打开微博热搜页面
url = 'https://s.weibo.com/top/summary?cate=realtimehot'
browser.get(url)
time.sleep(5) # 等待页面加载完成
# 获取热搜词列表
hot_words = []
hot_word_elements = browser.find_elements_by_css_selector('.td-02 a')
for hot_word_element in hot_word_elements:
hot_words.append(hot_word_element.text)
# 关闭浏览器
browser.quit()
# 分词
text = ' '.join(hot_words)
words = jieba.cut(text)
# 生成词云图
wordcloud = WordCloud(background_color='white', width=800, height=600).generate(' '.join(words))
wordcloud.to_file('wordcloud.png')
```
这个代码会爬取微博热搜页面的热搜词列表,并进行分词,最后生成词云图并保存为图片文件。你可以根据需要调整代码中的一些参数,如词云图的大小、颜色等。
阅读全文