词频统计哈姆莱特的python代码
时间: 2024-06-20 07:03:01 浏览: 91
词频统计哈姆莱特的Python代码可以使用Python标准库中的collections模块中的Counter类来实现。以下是一个简单的示例代码:
```
import collections
# 读取文件内容
with open('hamlet.txt', 'r') as f:
content = f.read()
# 去除标点符号和换行符
content = content.replace('\n', ' ')
for c in '.,?!:;"\'':
content = content.replace(c, '')
# 将文本按照空格分割成单词列表
words = content.lower().split()
# 统计单词出现频率
word_count = collections.Counter(words)
# 输出前10个出现频率最高的单词
for word, count in word_count.most_common(10):
print(word, count)
```
上述代码首先读取文件内容,然后去除标点符号和换行符,接着将文本按照空格分割成单词列表。然后使用collections模块中的Counter类统计单词出现频率,最后输出出现频率最高的前10个单词及其出现次数。
阅读全文