使用re.split进行中文分句,以逗号和句号作为分隔符,怎么返回分句时被清除的符号
时间: 2023-04-06 13:03:17 浏览: 102
txt文件读取以逗号为分隔符号
4星 · 用户满意度95%
可以使用re.findall来匹配分句时被清除的符号,然后将其保存下来。具体实现可以参考以下代码:
import re
text = "这是一段中文文本,包含多个句子。其中有些句子使用了逗号,有些句子使用了句号。"
pattern = r'([。,])'
sentences = re.split(pattern, text)
sentences = [s1 + s2 for s1, s2 in zip(sentences[0::2], sentences[1::2])]
symbols = re.findall(pattern, text)
print(sentences)
print(symbols)
阅读全文