Python中jieba库分词会把中文字符和换行符去掉吗?
时间: 2023-05-24 22:05:56 浏览: 965
结巴分词、词性标注以及停用词过滤
5星 · 资源好评率100%
在默认情况下,Jieba会将中文字符(包括汉字、中文标点符号等)看做一个完整的词语,不会去掉。而对于换行符,Jieba可能会将其看做空格进行处理,也可能会忽略掉,具体取决于使用时的处理方式。
当使用`jieba.lcut()`函数进行分词时,它会将分词结果以列表形式返回,中文字符和换行符都会被包含在分词结果中,例如:
```python
import jieba
text = "笔者本着爱国主义精神,喜欢吃中国传统美食。"
seg_list = jieba.lcut(text)
print(seg_list)
```
输出结果为:
```
['笔者', '本着', '爱国主义', '精神', ',', '喜欢', '吃', '中国', '传统', '美食', '。']
```
如果一个段落中有多个换行符,例如:
```python
text = "德拉克斯勒之死\n一次永久性的封印\n"
seg_list = jieba.lcut(text)
print(seg_list)
```
输出结果为:
```
['德拉克斯勒', '之死', '\n', '一次', '永久性', '的', '封印', '\n']
```
可以看到,换行符被包含在了分词结果中。
需要注意的是,如果使用`jieba.cut()`进行分词,则返回的是一个生成器(generator)对象,需要通过for循环或者list()函数转换为列表,才能看到分词结果。另外,如果需要去掉中文停用词,可以通过停用词表的方式实现,Jieba提供了一个默认的中文停用词表。
阅读全文