请分析附件文件“水浒传.txt”中出现的单词情况,统计并输出出现最多的 20 个单词。同 时利用词云库实现对“水浒传.txt”的词频分析。python
时间: 2024-11-10 09:26:03 浏览: 15
为了完成这个任务,我们可以使用Python的几个库,如`jieba`用于分词,`collections`进行频率统计,以及`wordcloud`创建词云。以下是步骤:
1. 首先安装必要的库,如果尚未安装,可以使用以下命令:
```bash
pip install jieba wordcloud matplotlib
```
2. 然后编写Python代码分析文本文件:
```python
import jieba
from collections import Counter
from wordcloud import WordCloud
import matplotlib.pyplot as plt
# 分析文件
def analyze_text(file_name):
with open(file_name, 'r', encoding='utf-8') as file:
text = file.read() # 读取整个文件内容
# 使用jieba进行分词
words = jieba.lcut(text) # 这里假设文本是中文,如果是英文,可以省略切词步骤
# 计算单词频率
word_counts = Counter(words)
# 获取最常见的20个单词及其频率
top_20_words = word_counts.most_common(20)
print("出现次数最多的20个单词:")
for word, count in top_20_words:
print(f"{word}: {count}")
# 创建词云
def create_word_cloud(words, top_n=20):
wc = WordCloud(font_path='simhei.ttf', width=800, height=400, background_color='white', max_words=top_n).generate_from_frequencies(dict(top_20_words))
plt.imshow(wc, interpolation='bilinear')
plt.axis('off')
plt.show()
create_word_cloud(word_counts)
# 调用函数分析“水浒传.txt”
analyze_text('水浒传.txt')
```
在这个脚本中,我们首先打开文件并读取内容,然后使用`jieba`对文本进行分词。接着,我们使用`Counter`计算每个单词的频率,并选择出现次数最多的前20个单词。最后,我们生成一个词云来可视化这20个高频词。
注意:词云生成需要一个字体文件(如'simhei.ttf'),这里假设已经有一个适合的中文字体文件放在与脚本相同的目录下。如果不是,你需要提供正确的路径。此外,如果你的文本文件包含非中文字符,可能需要调整分词库。
阅读全文