对txt文件使用stoplist.txt去除停用词,且进行中文分词精确模式处理,保存结果文件。最后提取关键词及其频率。
时间: 2024-05-09 17:20:46 浏览: 230
停用词表_stoplist_
以下是Python代码实现:
```python
import jieba
import jieba.analyse
# 读取停用词表
with open('stoplist.txt', 'r', encoding='utf-8') as f:
stoplist = set([line.strip() for line in f])
# 读取待处理文件
with open('input.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 中文分词,精确模式,去除停用词
words = [word for word in jieba.cut(text, cut_all=False) if word not in stoplist]
# 保存结果文件
with open('output.txt', 'w', encoding='utf-8') as f:
f.write(' '.join(words))
# 提取关键词及其频率
keywords = jieba.analyse.extract_tags(text, topK=10, withWeight=True)
# 输出关键词及其频率
for keyword, weight in keywords:
print(keyword, weight)
```
其中,stoplist.txt为停用词表文件,input.txt为待处理文件,output.txt为处理结果文件。关键词及其频率默认输出前10个,可根据需要进行调整。
阅读全文