python jieba模块
时间: 2023-08-23 10:05:41 浏览: 35
Python jieba 是一个中文分词库,它可以将一段中文文本分割成一个个单独的词语,方便进行文本处理和分析。jieba 支持三种分词模式:精确模式、全模式和搜索引擎模式,同时还支持自定义词典和并行分词等功能。
使用 jieba 需要先安装该模块,可以通过 pip 安装:
```
pip install jieba
```
使用方法:
```python
import jieba
# 精确模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("精确模式:", "/ ".join(seg_list))
# 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("全模式:", "/ ".join(seg_list))
# 搜索引擎模式
seg_list = jieba.cut_for_search("我来到北京清华大学")
print("搜索引擎模式:", "/ ".join(seg_list))
# 添加自定义词典
jieba.load_userdict("userdict.txt")
seg_list = jieba.cut("我喜欢Python编程")
print("自定义词典:", "/ ".join(seg_list))
```
输出结果:
```
精确模式: 我/ 来到/ 北京/ 清华大学
全模式: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
搜索引擎模式: 我/ 来到/ 北京/ 清华/ 华大/ 大学/ 清华大学
自定义词典: 我/ 喜欢/ Python/ 编程
```
其中 `jieba.cut()` 函数返回的是一个可迭代的 generator 对象,可以通过 `"/ ".join(seg_list)` 将分词结果拼接成一个字符串。