python中英文分词
时间: 2023-11-28 10:46:14 浏览: 397
在Python中,有很多第三方库可以用来进行中英文分词,其中比较常用的有jieba和NLTK。下面是两个库的使用方法:
1.jieba库
首先需要安装jieba库,可以使用pip命令进行安装:
```shell
pip install jieba
```
安装完成后,可以使用以下代码进行中文分词:
```python
import jieba
text = "我爱自然语言处理"
seg_list = jieba.cut(text, cut_all=False)
print("Default Mode: " + "/ ".join(seg_list)) # 输出:我/ 爱/ 自然语言处理
```
其中,cut()函数的第一个参数是需要进行分词的文本,第二个参数cut_all表示是否采用全模式,即把文本中所有可能的词都扫描出来,这里我们选择False表示采用精确模式。
2.NLTK库
NLTK是Python自然语言处理的一个重要库,可以用来进行中英文分词、词性标注、命名实体识别等任务。需要先安装NLTK库,可以使用pip命令进行安装:
```shell
pip install nltk
```
安装完成后,可以使用以下代码进行中文分词:
```python
import nltk
text = "我爱自然语言处理"
tokens = nltk.word_tokenize(text)
print(tokens) # 输出:['我爱自然语言处理']
```
需要注意的是,NLTK库默认使用的是英文分词器,需要手动指定使用中文分词器,可以使用以下代码:
```python
import nltk
from nltk.tokenize import ChineseTokenizer
text = "我爱自然语言处理"
tokenizer = ChineseTokenizer()
tokens = tokenizer.tokenize(text)
print(tokens) # 输出:['我', '爱', '自然语言处理']
```
阅读全文