统计文本文件中排名前十的单词
时间: 2023-10-23 18:39:38 浏览: 80
C:\Users\Administrator\Desktop\GetWords.txt
好的,我可以为您提供一个Python脚本,使用nltk库来统计文本文件中出现频率最高的前十个单词。首先,确保您已经安装了nltk库。然后,您可以使用以下代码:
```python
import nltk
from collections import Counter
# 读取文本文件
with open('your_file.txt', 'r') as f:
text = f.read()
# 分词
tokens = nltk.word_tokenize(text)
# 去除标点符号和停用词
stop_words = set(nltk.corpus.stopwords.words('english'))
tokens_cleaned = [token.lower() for token in tokens if token.isalpha() and token.lower() not in stop_words]
# 统计词频
word_count = Counter(tokens_cleaned)
# 输出前十个最高频率的单词
print(word_count.most_common(10))
```
请将 `your_file.txt` 替换为您要统计的文本文件的路径。这个脚本将输出出现频率最高的前十个单词及其出现次数。
阅读全文