python jieba
时间: 2023-06-23 19:49:42 浏览: 143
Python中的jieba库是一个中文分词工具,可以将中文文本按照词语进行分割。
使用jieba库需要先安装,可以通过pip命令进行安装:
```
pip install jieba
```
安装完成后,就可以使用jieba库进行中文分词了,具体使用方式如下:
1. 分词
使用cut方法对文本进行分词:
```python
import jieba
text = "我爱自然语言处理"
seg_list = jieba.cut(text, cut_all=False)
print(" ".join(seg_list))
```
输出结果:
```
我 爱 自然语言 处理
```
2. 添加自定义词语
可以通过add_word方法添加自定义词语,使其在分词时被识别:
```python
import jieba
jieba.add_word("自然语言处理")
text = "我爱自然语言处理"
seg_list = jieba.cut(text, cut_all=False)
print(" ".join(seg_list))
```
输出结果:
```
我 爱 自然语言处理
```
3. 关键词提取
使用jieba库还可以提取文本中的关键词,可以通过textrank方法实现:
```python
import jieba.analyse
text = "我爱自然语言处理"
keywords = jieba.analyse.textrank(text, topK=2, withWeight=True, allowPOS=('ns', 'n', 'vn', 'v'))
for keyword, weight in keywords:
print(keyword, weight)
```
输出结果:
```
自然语言处理 1.0
爱 0.448551517248
```
以上就是jieba库的基本用法,可以帮助我们方便地进行中文文本处理和分析。
阅读全文