对txt文件使用stoplist.txt去除停用词,且进行中文分词精确模式处理,保存结果文件。最后提取关键词及其出现次数,并将关键词和其出现次数保存为xlsx文件
时间: 2024-05-09 12:18:45 浏览: 16
以下是Python代码实现:
```python
import jieba
import openpyxl
# 读取停用词文件
stop_words = set()
with open('stoplist.txt', 'r', encoding='utf-8') as f:
for line in f.readlines():
stop_words.add(line.strip())
# 读取txt文件
with open('input.txt', 'r', encoding='utf-8') as f:
content = f.read()
# 进行中文分词
words = jieba.cut(content, cut_all=False)
# 去除停用词
filtered_words = []
for word in words:
if word not in stop_words and word != ' ':
filtered_words.append(word)
# 统计关键词出现次数
keywords = {}
for word in filtered_words:
if word in keywords:
keywords[word] += 1
else:
keywords[word] = 1
# 将关键词和出现次数写入xlsx文件
wb = openpyxl.Workbook()
ws = wb.active
ws['A1'] = '关键词'
ws['B1'] = '出现次数'
row = 2
for k, v in keywords.items():
ws.cell(row=row, column=1, value=k)
ws.cell(row=row, column=2, value=v)
row += 1
wb.save('output.xlsx')
```
需要注意的是,该代码需要安装jieba和openpyxl库。可以使用以下命令进行安装:
```bash
pip install jieba openpyxl
```
该代码将输入文件名设为input.txt,输出文件名设为output.xlsx。可以根据需要修改这些文件名。同时,如果停用词文件格式不同,也需要相应修改代码中读取停用词的部分。
相关推荐
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)