python做英文词形词干处理
时间: 2023-07-18 08:05:33 浏览: 51
在Python中,可以使用nltk(Natural Language Toolkit)库进行英文词形词干处理。具体步骤如下:
1. 安装nltk库:可以使用pip install nltk命令进行安装。
2. 导入nltk库:
```python
import nltk
from nltk.stem import PorterStemmer, WordNetLemmatizer
```
3. 初始化nltk:
```python
nltk.download('punkt')
nltk.download('wordnet')
```
4. 对单词进行词干处理:
```python
# 初始化词干处理器
ps = PorterStemmer()
# 对单个单词进行词干处理
word = 'running'
stemmed_word = ps.stem(word)
print(stemmed_word) # 输出结果为 run
# 对一句话中的所有单词进行词干处理
sentence = 'I am running in the park'
stemmed_sentence = ' '.join([ps.stem(word) for word in sentence.split()])
print(stemmed_sentence) # 输出结果为 i am run in the park
```
5. 对单词进行词形还原处理:
```python
# 初始化词形还原处理器
lemmatizer = WordNetLemmatizer()
# 对单个单词进行词形还原处理
word = 'running'
lemmatized_word = lemmatizer.lemmatize(word, pos='v')
print(lemmatized_word) # 输出结果为 run
# 对一句话中的所有单词进行词形还原处理
sentence = 'I am running in the park'
lemmatized_sentence = ' '.join([lemmatizer.lemmatize(word, pos='v') for word in sentence.split()])
print(lemmatized_sentence) # 输出结果为 I be run in the park
```
需要注意的是,词干处理和词形还原处理的效果并不完全相同,需要根据具体情况选择使用哪种方法。