python词干化处理
时间: 2023-10-18 19:03:36 浏览: 41
Python中有多种方法可以进行词干化处理,其中最常见的是使用NLTK(Natural Language Toolkit)库和spaCy库。
使用NLTK库进行词干化处理:
首先需要安装NLTK库:
```
!pip install nltk
```
然后导入库和下载词典:
```
import nltk
nltk.download('punkt')
nltk.download('wordnet')
```
接下来使用WordNetLemmatizer类进行词干化处理:
```
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
word = "running"
lemma_word = lemmatizer.lemmatize(word, pos='v') # pos参数表示词性,v表示动词
print(lemma_word)
```
输出结果为:
```
run
```
使用spaCy库进行词干化处理:
首先需要安装spaCy库:
```
!pip install spacy
```
然后下载语言模型:
```
!python -m spacy download en_core_web_sm
```
接下来导入库和加载语言模型:
```
import spacy
nlp = spacy.load('en_core_web_sm')
```
然后使用词性标注和词形还原进行词干化处理:
```
doc = nlp("running")
lemma_word = doc[0].lemma_
print(lemma_word)
```
输出结果为:
```
run
```