用python程序做一个从文件中读取全部文本进行预处理:将标点符号全部替换成空格; (3)将预处理之后的文本进行分词,统计每个两个字以上词语出现的次数,生成词频字典; (4)按词频大小进行排序,输出Top20,并将统计结果写入文件。 自选一个可视化效果,完成词频字典可视化。生成完整代码
时间: 2024-03-26 12:35:24 浏览: 156
以下是针对您的问题的Python程序,用于从文件中读取全部文本进行预处理,分词并生成词频字典,并按词频大小排序,并输出Top20,并将统计结果写入文件。还包括一个可视化效果来呈现词频字典。
```python
import string
import jieba
from collections import defaultdict
import matplotlib.pyplot as plt
# 打开文件并读取文本
with open('text.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 将标点符号全部替换成空格
translator = str.maketrans(string.punctuation, ' ' * len(string.punctuation))
text = text.translate(translator)
# 分词并统计每个两个字以上词语出现的次数
words_count = defaultdict(int)
for word in jieba.cut(text):
if len(word) >= 2:
words_count[word] += 1
# 按词频大小进行排序,输出Top20,并将统计结果写入文件
with open('result.txt', 'w', encoding='utf-8') as f:
f.write('Word\tCount\n')
for word, count in sorted(words_count.items(), key=lambda x: x[1], reverse=True)[:20]:
f.write('{}\t{}\n'.format(word, count))
print('{}\t{}'.format(word, count))
# 可视化词频字典
top_words = dict(sorted(words_count.items(), key=lambda x: x[1], reverse=True)[:20])
plt.bar(range(len(top_words)), list(top_words.values()), align='center')
plt.xticks(range(len(top_words)), list(top_words.keys()))
plt.show()
```
请将代码保存为Python文件并将文件名更改为“word_frequency.py”。然后将文本文件命名为“text.txt”,并将其放在与Python文件相同的目录中。最后,运行代码,即可生成Top20词频并可视化结果。
阅读全文