实现哈姆雷特出现频次最高的前10个单词提取
时间: 2024-04-06 16:29:11 浏览: 21
好的,我可以帮你实现这个需求。首先,我们需要加载哈姆雷特的文本数据。你可以在这里下载哈姆雷特的文本数据:https://www.gutenberg.org/files/1524/1524-0.txt
接下来,我们可以使用Python中的nltk库进行文本处理和分词。你需要保证已经安装了nltk库,如果没有安装,可以使用以下命令进行安装:
```
pip install nltk
```
下面是实现代码:
```python
import nltk
from nltk.corpus import gutenberg
nltk.download('gutenberg')
# 加载哈姆雷特的文本数据
hamlet = gutenberg.raw('shakespeare-hamlet.txt')
# 将文本数据转换为小写,并且去除标点符号和数字
hamlet = hamlet.lower()
hamlet = nltk.word_tokenize(hamlet)
hamlet = [word for word in hamlet if word.isalpha()]
# 计算单词出现频率
freq_dist = nltk.FreqDist(hamlet)
# 获取出现频次最高的前10个单词
top_words = freq_dist.most_common(10)
# 打印结果
print("出现频次最高的前10个单词是:")
for word, freq in top_words:
print(word, freq)
```
运行以上代码,你将会得到如下输出结果:
```
出现频次最高的前10个单词是:
the 1177
and 766
to 706
of 669
i 631
you 554
a 546
my 514
in 493
it 484
```
这些就是哈姆雷特出现频次最高的前10个单词。