python利用jieba库实现Hamet英文词频统计和《hamlet》词频率
时间: 2024-10-15 08:23:44 浏览: 64
在Python中,我们可以使用jieba库来进行分词处理,但它主要用于中文文本的分析,对于英文文本如《Hamlet》的词频统计,我们需要用到的是nltk(Natural Language Toolkit)或者专门的英文文本处理库,如NLTK、spaCy或gensim。
首先,对于英文词频统计,你需要下载并安装nltk库:
```bash
pip install nltk
```
然后导入必要的模块,并加载《Hamlet》的英文文本文件,例如`hamlet.txt`:
```python
import nltk
from collections import Counter
# 下载英文停用词列表
nltk.download('stopwords')
nltk.download('punkt')
with open("hamlet.txt", "r") as file:
text = file.read().lower() # 转成小写以统一处理
# 分割单词并去除停用词
words = [word for word in nltk.word_tokenize(text) if word.isalpha() and word not in nltk.corpus.stopwords.words('english')]
# 计算词频
word_freq = Counter(words)
most_common_words = word_freq.most_common(10) # 取出最常见的前10个词及其频率
```
在这个例子中,我们使用了nltk的`word_tokenize`函数进行单词分割,`stopwords`用于移除常见的英文停用词,然后通过`Counter`计算词频并获取最频繁的词汇。
阅读全文