python中文分词
时间: 2023-10-12 16:05:34 浏览: 95
在Python中,有多个中文分词工具可供选择。下面介绍几个常用的中文分词工具:
1. **jieba**:jieba是Python中最常用的中文分词工具之一,具有简单易用、高效的特点。
```python
import jieba
# 对文本进行分词
text = "我喜欢吃苹果"
seg_list = jieba.cut(text, cut_all=False)
# 输出分词结果
print(" ".join(seg_list))
```
2. **pkuseg**:pkuseg是一个基于全新颖的预训练模型和词典的Python中文分词工具,具有高精度和高效率。
```python
import pkuseg
seg = pkuseg.pkuseg()
text = "我喜欢吃苹果"
seg_list = seg.cut(text)
# 输出分词结果
print(" ".join(seg_list))
```
3. **THULAC**:THULAC是由清华大学自然语言处理与社会人文计算实验室开发的一套中文词法分析工具,能够进行中文分词、词性标注、命名实体识别等任务。
```python
import thulac
thu = thulac.thulac()
text = "我喜欢吃苹果"
seg_list = thu.cut(text, text=False)
# 输出分词结果
print(" ".join(seg_list))
```
以上是几个常用的中文分词工具,你可以根据具体需求选择合适的工具进行中文分词。
阅读全文