从网上获取中文时事文本素材 (保存为tt文本),利用第三 方库 jieba 进行分词,统计词频,将高频词用第三方库 wordcloud 可视化为词云并显示,词云图片效果自定义。
时间: 2024-02-24 20:53:53 浏览: 63
python jieba分词并统计词频后输出结果到Excel和txt文档方法
好的,您的问题是如何从网上获取中文时事文本素材并进行相关操作,是吗?那我来给您讲一下具体的步骤。
首先,您可以在百度新闻、新浪新闻等网站上获取中文时事文本素材并保存为 txt 文本格式。接下来,您需要安装 jieba 和 wordcloud 两个第三方库。
安装 jieba 库的方法如下:
```
pip install jieba
```
安装 wordcloud 库的方法如下:
```
pip install wordcloud
```
安装完成后,您可以通过以下代码进行分词、统计词频、生成词云:
```python
import jieba
from collections import Counter
from wordcloud import WordCloud
import matplotlib.pyplot as plt
# 读取文本
with open('news.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 分词
words = jieba.cut(text)
# 统计词频
word_counts = Counter(words)
# 生成词云
wc = WordCloud(font_path='msyh.ttc', width=800, height=600, background_color='white')
wc.generate_from_frequencies(word_counts)
# 显示词云
plt.imshow(wc, interpolation='bilinear')
plt.axis('off')
plt.show()
```
其中,`news.txt` 是您保存的中文时事文本素材的文件名,`msyh.ttc` 是字体文件,您可以根据需要更改。
这样,您就可以通过 jieba 和 wordcloud 库将高频词可视化为词云并显示了。希望对您有所帮助!
阅读全文