用jieba分词,并且将关键词文本文档用jieba.load_userdict设为jieba的自定义词典,根据关键词文本文档的关键词对文件夹中各文本进行对应关键词词频统计,并且生成excel,excel的列标题为关键词文档中的文件名,行标题为文件夹中各文档名称,python怎么写
时间: 2023-04-08 08:04:18 浏览: 176
jieba.NET-master(2)_jieba分词_C#_
5星 · 资源好评率100%
我可以回答这个问题。首先,需要安装jieba库,然后使用jieba.load_userdict加载自定义词典。接着,可以使用os库遍历文件夹中的文本文件,使用jieba分词并统计词频,最后使用pandas库生成excel表格。以下是示例代码:
```python
import os
import jieba
import pandas as pd
# 加载自定义词典
jieba.load_userdict('keywords.txt')
# 遍历文件夹中的文本文件
folder_path = 'text_folder'
file_list = os.listdir(folder_path)
keywords = pd.read_csv('keywords.txt', header=None, names=['keyword'])['keyword'].tolist()
# 统计词频
result = {}
for file_name in file_list:
file_path = os.path.join(folder_path, file_name)
with open(file_path, 'r', encoding='utf-8') as f:
content = f.read()
words = jieba.lcut(content)
freq = {}
for word in words:
if word in keywords:
freq[word] = freq.get(word, 0) + 1
result[file_name] = freq
# 生成excel表格
df = pd.DataFrame(result).fillna(0)
df.to_excel('result.xlsx')
```
其中,'keywords.txt'为关键词文本文档,'text_folder'为文本文件所在的文件夹路径,'result.xlsx'为生成的excel表格文件名。
阅读全文