将govreport.txt文件分词得到的出现频率最高的5个词语进行可视化,生成柱状图。高频词的个数自定。用python代码表示
时间: 2023-06-06 19:04:58 浏览: 152
好的,以下是Python代码示例:
```python
import jieba
import matplotlib.pyplot as plt
# 打开并读取govreport.txt文件
with open('govreport.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 利用jieba库分词,并统计每个词语出现的次数
word_freq = {}
words = jieba.cut(text)
for word in words:
if len(word) > 1: # 只统计长度大于1的词语
word_freq[word] = word_freq.get(word, 0) + 1
# 从高到低排序,选取出现频率最高的前5个词语
top_words = sorted(word_freq.items(), key=lambda x: x[1], reverse=True)[:5]
x_labels = [w[0] for w in top_words]
y_values = [w[1] for w in top_words]
# 生成柱状图
plt.bar(x_labels, y_values, color='blue')
plt.title('govreport.txt中出现频率最高的5个词语')
plt.xlabel('词语')
plt.ylabel('出现次数')
plt.show()
```
这段代码会读取名为`govreport.txt`的文件,并利用jieba库进行中文分词。然后,它会统计每个词语出现的次数,并从高到低排序。最后,它会选取出现频率最高的前5个词语,并生成一个柱状图展示它们的出现次数。你可以根据需要自定义高频词的个数。
阅读全文