用jieba库对C:\Users\Administrator\Desktop\comment_1.txt进行去除停用词、分词并建立分词列表
时间: 2023-07-24 14:13:51 浏览: 123
中文分词词典UserDict.txt
您可以使用`jieba`库对文本进行去除停用词、分词,并建立分词列表。下面是一个示例代码:
```python
import jieba
from jieba import analyse
import os
# 设置停用词文件路径
stopwords_path = "C:\\Users\\Administrator\\Desktop\\stopwords.txt"
# 加载停用词列表
stopwords = []
with open(stopwords_path, "r", encoding="utf-8") as f:
for line in f:
stopwords.append(line.strip())
# 读取文本文件
file_path = "C:\\Users\\Administrator\\Desktop\\comment_1.txt"
with open(file_path, "r", encoding="utf-8") as f:
text = f.read()
# 去除停用词
words = []
seg_list = jieba.cut(text)
for word in seg_list:
if word not in stopwords:
words.append(word)
# 打印分词列表
print(words)
```
请确保`stopwords.txt`文件包含您想要去除的停用词列表,并且文件路径正确。在示例代码中,我们使用`jieba`库进行分词,并使用停用词列表过滤掉停用词,最终得到分词列表`words`。您可以根据需要在代码中进行修改和适配。
阅读全文