用jieba分词,并且将关键词文本文档用jieba.load_userdict设为jieba的自定义词典,根据关键词文本文档的关键词对文件夹中各文本进行对应关键词词频统计,并且生成excel,excel的行为关键词文档中的文件词,列问文件夹中各文档名称,python怎么写
时间: 2023-04-08 09:04:16 浏览: 169
python使用jieba进行分词统计
5星 · 资源好评率100%
我可以回答这个问题。首先,需要安装jieba库,然后使用load_userdict方法加载自定义词典。接着,可以使用os库遍历文件夹中的所有文本文件,对每个文件进行分词,并统计关键词出现的次数。最后,使用pandas库生成excel文件,行为关键词文本文档中的文件词,列为文件夹中各文档名称。以下是示例代码:
```python
import os
import jieba
import pandas as pd
# 加载自定义词典
jieba.load_userdict('keywords.txt')
# 遍历文件夹中的所有文本文件
folder_path = 'folder_path'
file_list = os.listdir(folder_path)
keywords = pd.read_csv('keywords.txt', header=None, names=['keyword'])
result = pd.DataFrame(columns=file_list, index=keywords['keyword'])
for file_name in file_list:
file_path = os.path.join(folder_path, file_name)
with open(file_path, 'r', encoding='utf-8') as f:
content = f.read()
# 分词并统计关键词出现的次数
words = jieba.lcut(content)
word_count = {}
for word in words:
if word in keywords['keyword'].tolist():
if word in word_count:
word_count[word] += 1
else:
word_count[word] = 1
# 将统计结果添加到结果表中
for keyword in keywords['keyword']:
if keyword in word_count:
result.loc[keyword, file_name] = word_count[keyword]
else:
result.loc[keyword, file_name] = 0
# 生成excel文件
result.to_excel('result.xlsx')
```
阅读全文