python高频词提取
时间: 2023-09-22 14:05:06 浏览: 84
python提取文章的关键高频词
5星 · 资源好评率100%
可以使用Python中的NLTK库进行高频词提取,代码如下:
```
import nltk
from nltk.probability import FreqDist
# 读取文本文件
with open('text.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 转为小写并分词
words = nltk.word_tokenize(text.lower())
# 去除停用词
stopwords = set(nltk.corpus.stopwords.words('english'))
words = [word for word in words if word not in stopwords]
# 计算词频并排序
fdist = FreqDist(words)
sorted_words = sorted(fdist.items(), key=lambda x: x[1], reverse=True)
# 输出前10个高频词和频数
for word, frequency in sorted_words[:10]:
print(word, frequency)
```
这段代码可以读取文本文件,将其中的单词转为小写并分词,去除停用词,计算词频并排序,最后输出前10个高频词和频数。你可以把text.txt替换成你自己的文本文件,得到该文本中最常见的单词。
阅读全文