用jieba分词,并且将关键词文本文档用jieba.load_userdict设为jieba的自定义词典,根据关键词文本文档的关键词对文件夹中各文本进行对应关键词词频统计,并且生成excel,excel的行标题为关键词文档中的文件名,列标题为文件夹中各文档名称,python怎么写
时间: 2023-04-08 14:04:16 浏览: 76
python使用jieba进行分词统计
5星 · 资源好评率100%
可以使用以下代码实现:
```python
import os
import jieba
import pandas as pd
# 加载自定义词典
jieba.load_userdict('keywords.txt')
# 获取文件夹中的所有文本文件
folder_path = 'path/to/folder'
file_list = os.listdir(folder_path)
file_list = [f for f in file_list if f.endswith('.txt')]
# 获取关键词文本文档中的关键词
with open('keywords.txt', 'r', encoding='utf-8') as f:
keywords = [line.strip() for line in f.readlines()]
# 统计各文本文件中的关键词词频
result = {}
for file_name in file_list:
with open(os.path.join(folder_path, file_name), 'r', encoding='utf-8') as f:
text = f.read()
word_list = jieba.lcut(text)
freq_dict = {}
for word in word_list:
if word in keywords:
freq_dict[word] = freq_dict.get(word, 0) + 1
result[file_name] = freq_dict
# 生成excel
df = pd.DataFrame(result)
df.fillna(0, inplace=True)
df.to_excel('result.xlsx')
```
其中,`keywords.txt` 是关键词文本文档,每行一个关键词;`folder_path` 是要统计的文本文件所在的文件夹路径;`result.xlsx` 是生成的excel文件名。
阅读全文