用jieba分词,并且将关键词文本文档用jieba.load_userdict设为jieba的自定义词典,根据关键词文本文档的关键词对文件夹中各文本进行对应关键词词频统计,并且生成excel,excel的列标题为关键词文档中的文件名,行标题为文件夹中各文档名称,python怎么写
时间: 2023-04-08 19:04:18 浏览: 64
python使用jieba进行分词统计
5星 · 资源好评率100%
我可以回答这个问题。您可以使用以下代码实现:
```python
import os
import jieba
import pandas as pd
# 加载自定义词典
jieba.load_userdict('keywords.txt')
# 获取文件夹中所有文本文件的路径
folder_path = 'path/to/folder'
file_paths = [os.path.join(folder_path, f) for f in os.listdir(folder_path) if f.endswith('.txt')]
# 获取关键词文本文档中的关键词
with open('keywords.txt', 'r', encoding='utf-8') as f:
keywords = [line.strip() for line in f.readlines()]
# 统计各文本中关键词的词频
data = {}
for file_path in file_paths:
with open(file_path, 'r', encoding='utf-8') as f:
content = f.read()
words = jieba.lcut(content)
freq = {}
for keyword in keywords:
freq[keyword] = words.count(keyword)
data[os.path.basename(file_path)] = freq
# 生成excel
df = pd.DataFrame(data).T
df.to_excel('result.xlsx')
```
其中,`keywords.txt` 是关键词文本文档的路径,`folder_path` 是要统计的文本文件所在的文件夹路径,`result.xlsx` 是生成的excel文件的路径。您需要将这些路径替换为实际的路径。
阅读全文