用jieba分词,并且将关键词文本文档用jieba.load_userdict设为jieba的自定义词典,根据关键词文本文档的关键词对文件夹中各文本进行对应关键词词频统计,并且生成excel,excel的列标题为关键词文档中的文件名,行标题为文件夹中各文档名称,python怎么写
时间: 2023-04-08 08:04:18 浏览: 53
我可以回答这个问题。您可以使用以下代码实现:
```python
import os
import jieba
import pandas as pd
# 加载自定义词典
jieba.load_userdict('关键词文本文档路径')
# 获取文件夹中所有文本文件的路径
folder_path = '文件夹路径'
file_paths = [os.path.join(folder_path, f) for f in os.listdir(folder_path) if f.endswith('.txt')]
# 统计关键词词频
keywords = []
for line in open('关键词文本文档路径', 'r', encoding='utf-8'):
keywords.append(line.strip())
result = {}
for file_path in file_paths:
with open(file_path, 'r', encoding='utf-8') as f:
content = f.read()
word_list = jieba.lcut(content)
freq = {}
for keyword in keywords:
freq[keyword] = word_list.count(keyword)
result[os.path.basename(file_path)] = freq
# 生成excel
df = pd.DataFrame(result).T
df.to_excel('结果文件路径')
```
其中,需要替换的部分为:关键词文本文档路径、文件夹路径、结果文件路径。