jieba分词去掉标点符号
时间: 2023-11-09 12:08:33 浏览: 209
可以使用Python中的jieba库来进行分词,并通过正则表达式去掉标点符号。示例代码如下:
```python
import re
import jieba
# 待分词的文本
text = "今天天气真好,我想出去玩!"
# 使用jieba进行分词
seg_list = jieba.cut(text)
# 去掉标点符号
result = []
for word in seg_list:
# 使用正则表达式去掉标点符号
word = re.sub(r'[^\w\s]', '', word)
if word != '':
result.append(word)
print(result)
# 输出:['今天', '天气', '真好', '我', '想', '出去', '玩']
```
在上述代码中,我们使用`jieba.cut()`函数对文本进行分词,然后使用正则表达式`re.sub()`去掉标点符号。最后将不为空的词语添加到结果列表中,即可得到分词结果。
相关问题
jieba分词年月日
jieba分词库不提供直接分词出年月日的功能。但是,你可以根据分词结果中的词语进行处理和判断,以提取出年月日信息。例如,你可以使用正则表达式或其他方法来匹配包含年、月、日的词语,并将其组合在一起形成日期。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *2* [python --jieba 分词](https://blog.csdn.net/weixin_62816287/article/details/124024859)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"]
- *3* [街霸对决:2021年1月14日更新维护公告](https://blog.csdn.net/weixin_28754365/article/details/119293005)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"]
[ .reference_list ]
阅读全文