对A文件夹下各txt文件进行B文件中关键词txt文件的词频统计,并输出股票代码以及年份面板数据excel表,python代码怎么写
时间: 2023-04-05 19:01:34 浏览: 117
统计文本词频并输出为Excel表格形式——Python实现
5星 · 资源好评率100%
你好,这是一个关于 Python 编程的问题,我可以回答。首先,你需要使用 Python 的 os 模块来遍历 A 文件夹下的所有 txt 文件,然后使用 Python 的 re 模块来匹配关键词。接着,你可以使用 Python 的 pandas 模块来创建一个数据框,将股票代码和年份作为行索引,关键词作为列索引,词频作为值。最后,你可以使用 pandas 的 to_excel 方法将数据框输出为 excel 表格。以下是示例代码:
```python
import os
import re
import pandas as pd
# 定义关键词列表
keywords = ['keyword1', 'keyword2', 'keyword3']
# 定义 A 文件夹路径和 B 文件路径
a_folder = 'path/to/A/folder'
b_file = 'path/to/B/file'
# 定义数据框
data = pd.DataFrame(columns=keywords)
# 遍历 A 文件夹下的所有 txt 文件
for file in os.listdir(a_folder):
if file.endswith('.txt'):
# 读取文件内容
with open(os.path.join(a_folder, file), 'r') as f:
content = f.read()
# 统计关键词词频
freq = [len(re.findall(keyword, content)) for keyword in keywords]
# 提取股票代码和年份
stock_code = file.split('_')[0]
year = file.split('_')[1].split('.')[0]
# 将词频添加到数据框中
data.loc[(stock_code, year), :] = freq
# 将数据框输出为 excel 表格
data.to_excel(b_file)
```
希望这个代码能够帮助到你。如果你有任何问题,请随时问我。
阅读全文