分词、去停用词python代码
时间: 2024-02-10 22:07:40 浏览: 95
以下是使用jieba实现中文分词并去除停用词的Python代码:
```python
import jieba
import jieba.analyse
import codecs
# 加载停用词表
def get_stopwords_list():
stopwords = [line.strip() for line in codecs.open('stopwordsHIT.txt', 'r', 'utf-8').readlines()]
return stopwords
# 加载用户自定义词典
def get_userdict_list():
userdict = [line.strip() for line in codecs.open('userdict.txt', 'r', 'utf-8').readlines()]
return userdict
# 对文本进行分词并去除停用词
def seg_sentence(sentence):
# 加载停用词表
stopwords = get_stopwords_list()
# 加载用户自定义词典
userdict = get_userdict_list()
# 添加用户自定义词典
for word in userdict:
jieba.add_word(word)
# 分词并去除停用词
seg_list = jieba.cut(sentence)
seg_list = [word for word in seg_list if word not in stopwords]
return seg_list
# 测试分词效果
sentence = "这是一段测试文本,用于测试分词效果。"
seg_list = seg_sentence(sentence)
print(seg_list)
```
上述代码中,`get_stopwords_list()`函数用于加载停用词表,`get_userdict_list()`函数用于加载用户自定义词典,`seg_sentence()`函数用于对文本进行分词并去除停用词。在`seg_sentence()`函数中,首先加载停用词表和用户自定义词典,然后添加用户自定义词典,最后使用`jieba.cut()`函数对文本进行分词,并使用列表推导式去除停用词。
阅读全文
相关推荐
![zip](https://img-home.csdnimg.cn/images/20241231045053.png)
![pdf](https://img-home.csdnimg.cn/images/20241231044930.png)
![rar](https://img-home.csdnimg.cn/images/20241231044955.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)