文本分词后如何统计词频
时间: 2023-04-08 21:04:04 浏览: 152
统计文本词频并输出为Excel表格形式——Python实现
5星 · 资源好评率100%
可以使用Python中的NLTK库进行文本分词和词频统计。首先,使用NLTK库中的分词器对文本进行分词,然后使用Python中的字典数据结构来统计每个词出现的次数。具体实现可以参考以下代码:
```python
import nltk
from collections import Counter
# 读取文本文件
with open('text.txt', 'r') as f:
text = f.read()
# 使用NLTK库中的分词器对文本进行分词
tokens = nltk.word_tokenize(text)
# 使用Python中的字典数据结构来统计每个词出现的次数
word_freq = Counter(tokens)
# 输出词频统计结果
for word, freq in word_freq.most_common():
print(word, freq)
```
其中,`text.txt`是待分词的文本文件,`nltk.word_tokenize()`函数可以将文本分成单词,`Counter()`函数可以统计每个单词出现的次数,`most_common()`方法可以按照词频从高到低排序并输出结果。
阅读全文