python 中文分句
时间: 2023-09-06 21:03:34 浏览: 168
在Python中,可以使用一些库和方法来进行中文分句操作。以下是两种常用的方法:
1. 使用第三方库jieba进行中文分词后再进行分句。首先,需要使用pip安装jieba库,然后在Python代码中导入库。接下来,可以使用jieba.cut方法将中文文本进行分词,再根据标点符号等规则进行分句。具体代码如下:
```python
import jieba
text = "这是一个示例句子。它包含了一些中文标点符号!希望能正常分句。"
# 使用jieba进行分词
seg_list = jieba.cut(text, cut_all=False)
# 将分词结果连接成字符串
seg_text = " ".join(seg_list)
# 根据标点符号分句
sentences = seg_text.split("。")
print(sentences)
```
以上代码的输出结果为:['这是一个示例句子', '它包含了一些中文标点符号', '希望能正常分句']
2. 使用正则表达式进行中文分句。可以使用正则表达式来匹配中文句子的分隔符,例如句号、问号等标点符号。以下是使用re库的示例代码:
```python
import re
text = "这是一个示例句子。它包含了一些中文标点符号!希望能正常分句。"
# 使用正则表达式匹配中文句子分隔符
sentences = re.split(r'[。!?]', text)
# 去除空字符串和多余空格
sentences = [s.strip() for s in sentences if s.strip()]
print(sentences)
```
以上代码的输出结果也为:['这是一个示例句子', '它包含了一些中文标点符号', '希望能正常分句']
无论使用哪种方法,都可以将中文文本按句子进行分割,方便进行后续的文本处理或分析。
阅读全文