python高频词提取
时间: 2023-09-20 19:13:37 浏览: 297
在Python中,你可以使用以下步骤来提取文本中的高频词:
1. 导入所需的库,如nltk、collections等。
2. 读取文本数据,并进行分词处理。可以使用nltk库中的word_tokenize()函数或自定义函数来完成。
3. 对分词后的结果进行去除停用词的操作。可以使用nltk库中的stopwords来完成。
4. 对去除停用词后的结果进行词频统计。可以使用collections库中的Counter函数来实现。
5. 对词频统计结果进行排序,以便查看高频词。可以使用sorted函数和lambda表达式来实现。
下面是一个示例代码,演示如何提取文本中的高频词:
```python
import nltk
from collections import Counter
from nltk.corpus import stopwords
nltk.download('stopwords')
# 读取文本文件
with open('text.txt', 'r', encoding='utf-8') as file:
text = file.read()
# 分词处理
tokens = nltk.word_tokenize(text)
# 去除停用词
stop_words = set(stopwords.words('english'))
filtered_tokens = [token for token in tokens if token.lower() not in stop_words]
# 统计词频
word_count = Counter(filtered_tokens)
# 排序输出高频词
top_words = sorted(word_count.items(), key=lambda x: x[1], reverse=True)[:10]
print(top_words)
```
这段代码将输出文本中出现频率最高的10个单词。你可以根据需要调整代码中的参数,如停用词、输出数量等。
阅读全文