python使用nltk的词干还原和词形归并处理文本
时间: 2024-02-23 13:28:45 浏览: 158
在Python中使用NLTK库实现对词干的提取的教程
Python中可以使用Natural Language Toolkit (NLTK)来对文本进行词干还原和词形归并处理。下面是一个简单的代码示例:
```python
import nltk
from nltk.stem import WordNetLemmatizer, PorterStemmer
# 定义一个句子
sentence = "The quick brown foxes jumped over the lazy dog"
# 使用PorterStemmer进行词干还原
stemmer = PorterStemmer()
stemmed_words = [stemmer.stem(word) for word in nltk.word_tokenize(sentence)]
print(stemmed_words)
# 使用WordNetLemmatizer进行词形归并
lemmatizer = WordNetLemmatizer()
lemmatized_words = [lemmatizer.lemmatize(word) for word in nltk.word_tokenize(sentence)]
print(lemmatized_words)
```
输出结果为:
```
['the', 'quick', 'brown', 'fox', 'jump', 'over', 'the', 'lazi', 'dog']
['The', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog']
```
可以看到,使用PorterStemmer进行词干还原后,单词变为了基本形式,但有些单词并没有还原成正确的形式;而使用WordNetLemmatizer进行词形归并后,单词变成了正确的形式。
阅读全文