根据关键词文本文档A,对文件夹B中各文本文档进行关键词词频统计,并且生成excel表,该excel表以文件夹B中各文本文档名称为列,以文档A中各关键词为行,python代码怎么写
时间: 2023-04-05 18:03:29 浏览: 91
如何用TF-IDF算法提取文本中的关键词?
以下是Python代码示例,可以实现对文件夹B中各文本文档进行关键词词频统计,并生成excel表:
```python
import os
import pandas as pd
from collections import Counter
# 定义文本文档A的路径和关键词列表
text_a_path = 'path/to/text_a.txt'
keywords = ['keyword1', 'keyword2', 'keyword3']
# 定义文件夹B的路径
folder_b_path = 'path/to/folder_b'
# 定义一个空的字典,用于存储各文本文档的关键词词频统计结果
result_dict = {}
# 遍历文件夹B中的所有文本文档
for filename in os.listdir(folder_b_path):
if filename.endswith('.txt'):
file_path = os.path.join(folder_b_path, filename)
with open(file_path, 'r', encoding='utf-8') as f:
# 读取文本内容
text = f.read()
# 对文本内容进行关键词词频统计
counter = Counter(text.split())
# 将统计结果存入字典中
result_dict[filename] = [counter[keyword] for keyword in keywords]
# 将字典转换成DataFrame,并设置列名和行名
df = pd.DataFrame.from_dict(result_dict, orient='index', columns=keywords)
df.index.name = 'filename'
# 将DataFrame保存为excel表格
df.to_excel('result.xlsx')
```
需要注意的是,这段代码中并没有对文本文档A进行处理,而是直接使用了预定义的关键词列表。如果需要从文本文档A中提取关键词,可以使用一些自然语言处理工具,比如jieba分词库。
阅读全文