首页python利用jieba库实现Hamet英文词频统计和《hamlet》词频率

python利用jieba库实现Hamet英文词频统计和《hamlet》词频率

时间: 2024-10-15 08:23:44 浏览: 64

在Python中，我们可以使用jieba库来进行分词处理，但它主要用于中文文本的分析，对于英文文本如《Hamlet》的词频统计，我们需要用到的是nltk（Natural Language Toolkit）或者专门的英文文本处理库，如NLTK、spaCy或gensim。首先，对于英文词频统计，你需要下载并安装nltk库： ```bash pip install nltk ``` 然后导入必要的模块，并加载《Hamlet》的英文文本文件，例如`hamlet.txt`： ```python import nltk from collections import Counter # 下载英文停用词列表 nltk.download('stopwords') nltk.download('punkt') with open("hamlet.txt", "r") as file: text = file.read().lower() # 转成小写以统一处理 # 分割单词并去除停用词 words = [word for word in nltk.word_tokenize(text) if word.isalpha() and word not in nltk.corpus.stopwords.words('english')] # 计算词频 word_freq = Counter(words) most_common_words = word_freq.most_common(10) # 取出最常见的前10个词及其频率 ``` 在这个例子中，我们使用了nltk的`word_tokenize`函数进行单词分割，`stopwords`用于移除常见的英文停用词，然后通过`Counter`计算词频并获取最频繁的词汇。

阅读全文