python统计文本中高频词
时间: 2024-09-18 19:10:06 浏览: 40
在Python中,我们可以使用一些常见的文本处理库,如`collections`、`nltk`或`sklearn`来进行文本频率统计。以下是基本步骤:
1. **导入所需库**:
```python
from collections import Counter
import nltk
# 如果需要下载NLTK数据
nltk.download('punkt')
```
2. **读取文本**:
```python
with open('your_text_file.txt', 'r') as file:
text = file.read()
```
3. **预处理文本** (清洗、分词等):
```python
words = nltk.word_tokenize(text)
# 可能还需要去除停用词、标点符号
stop_words = set(nltk.corpus.stopwords.words('chinese')) # 或者英语或其他语言
words = [word.lower() for word in words if word.isalnum() and word not in stop_words]
```
4. **计算词频**:
```python
frequency = Counter(words)
```
5. **获取高频词**:
```python
top_n = frequency.most_common(10) # 获取最常见的前10个词
```
现在,`top_n`将是一个列表,包含元组 `(word, count)`,表示每个单词及其出现次数。
阅读全文