jieba使用
时间: 2023-07-11 17:10:31 浏览: 41
jieba是一个常用的中文分词工具,可以用于将中文文本切分成一个一个的词语,方便后续的文本处理和分析。下面是jieba的使用方法:
1. 安装jieba
可以通过pip命令来安装jieba:
```
pip install jieba
```
2. 分词
使用jieba分词的方式非常简单,只需要导入jieba库并调用cut方法即可:
```python
import jieba
# 精确模式分词
seg_list = jieba.cut("我爱自然语言处理", cut_all=False)
print("精确模式分词结果:", "/".join(seg_list))
# 全模式分词
seg_list = jieba.cut("我爱自然语言处理", cut_all=True)
print("全模式分词结果:", "/".join(seg_list))
# 搜索引擎模式分词
seg_list = jieba.cut_for_search("我爱自然语言处理")
print("搜索引擎模式分词结果:", "/".join(seg_list))
```
其中,cut方法的参数cut_all表示是否采用全模式分词,默认为False;参数HMM表示是否使用隐式马尔可夫模型,默认为True。
3. 添加自定义词典
如果jieba分词的默认词库不能满足需求,也可以通过添加自定义词典来扩展词库:
```python
import jieba
# 添加自定义词典
jieba.load_userdict("userdict.txt")
# 分词
seg_list = jieba.cut("我爱自然语言处理")
print("/".join(seg_list))
```
其中,userdict.txt为自定义词典文件,每个词占一行,格式为:词语 词频 词性。
4. 获取关键词
jieba还提供了获取关键词的方法,可以用于文本的关键词提取:
```python
import jieba.analyse
# 提取关键词
keywords = jieba.analyse.extract_tags("我爱自然语言处理", topK=3, withWeight=True)
for keyword, weight in keywords:
print(keyword, weight)
```
其中,extract_tags方法的参数topK表示提取的关键词数量,默认为20;参数withWeight表示是否返回关键词的权重,默认为False。
以上就是jieba的基本使用方法,jieba还有很多其他的用法,可以参考官方文档进行学习。