python分词、词干提取、去停用词、计算词频的代码
时间: 2023-07-10 10:26:53 浏览: 154
Stem.rar_stemming_分词 英文
好的,以下是一个示例代码,可以实现中文文本的分词、词干提取、去停用词和计算词频:
```python
import jieba
from nltk.stem import SnowballStemmer
from collections import Counter
# 加载停用词表
stopwords = set()
with open("stopwords.txt", "r", encoding="utf-8") as f:
for line in f:
stopwords.add(line.strip())
# 初始化词干提取器
stemmer = SnowballStemmer("english")
# 待分析的文本
text = "今天天气真好,适合出去玩。"
# 分词
words = jieba.cut(text)
# 去停用词和词干提取
words = [stemmer.stem(w) for w in words if w not in stopwords]
# 计算词频
word_count = Counter(words)
# 输出结果
for word, count in word_count.items():
print(word, count)
```
需要注意的是,上述代码中使用了jieba库进行中文分词,需要先安装该库。另外,停用词表可以根据自己的需求进行定制,这里只是简单地示范了一个使用方法。
阅读全文