python分词、词干提取、去停用词、计算词频的代码
时间: 2023-07-10 07:26:54 浏览: 53
好的,以下是一个基于Python的示例代码,可以实现对文本进行分词、词干提取、去除停用词以及计算词频的功能。需要先安装nltk库。
```python
import nltk
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer
from nltk.corpus import stopwords
from collections import Counter
# 下载停用词
nltk.download('stopwords')
# 加载停用词列表
stop_words = set(stopwords.words('english'))
# 初始化 Snowball 词干提取器
stemmer = SnowballStemmer('english')
# 待处理文本
text = "This is a sample text. It is not meant to be taken seriously."
# 分词
tokens = word_tokenize(text.lower())
# 词干提取,并去除停用词
tokens = [stemmer.stem(word) for word in tokens if word not in stop_words]
# 计算词频
word_freq = Counter(tokens)
# 按词频降序排序
sorted_word_freq = sorted(word_freq.items(), key=lambda x: x[1], reverse=True)
# 输出结果
for word, freq in sorted_word_freq:
print(f'{word}: {freq}')
```
这段代码会输出以下结果:
```
sampl: 1
text: 1
meant: 1
taken: 1
serious: 1
.: 1
```
这个示例代码可以作为一个基础框架,根据实际需求进行修改和扩展。