jieba库分词怎么去除共性比较多的
时间: 2023-11-01 13:11:50 浏览: 62
jieba库默认使用了基于词频的分词方法,因此可能会出现一些常用的、无意义的词汇被分割出来,这会影响分词的准确性。为了去除这些共性比较多的词汇,可以考虑使用停用词表。
停用词表是指一些常见但无实际意义的词汇,例如“的”、“是”、“在”等。在分词过程中,你可以将停用词表加载到程序中,并在分词时过滤掉这些词汇。
使用jieba库实现停用词过滤的示例代码如下:
```python
import jieba
# 加载停用词表
stop_words = set()
with open('stop_words.txt', 'r', encoding='utf-8') as f:
for line in f:
stop_words.add(line.strip())
# 分词并过滤停用词
text = '今天天气真好,我们去公园玩。'
words = jieba.cut(text)
result = []
for word in words:
if word not in stop_words:
result.append(word)
print(result)
```
其中,stop_words.txt 是一个存储停用词的文件,每行一个词汇。你可以根据需要自行编写。
相关问题
jieba分词年月日
jieba分词库不提供直接分词出年月日的功能。但是,你可以根据分词结果中的词语进行处理和判断,以提取出年月日信息。例如,你可以使用正则表达式或其他方法来匹配包含年、月、日的词语,并将其组合在一起形成日期。<span class="em">1</span><span class="em">2</span><span class="em">3</span>
#### 引用[.reference_title]
- *1* *2* [python --jieba 分词](https://blog.csdn.net/weixin_62816287/article/details/124024859)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"]
- *3* [街霸对决:2021年1月14日更新维护公告](https://blog.csdn.net/weixin_28754365/article/details/119293005)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"]
[ .reference_list ]
阅读全文