用python从文件夹下读取多个文件数据转换为dataframe筛选出数据并保存数据的代码
时间: 2024-06-11 15:07:12 浏览: 198
以下是用Python从文件夹下读取多个文件数据转换为dataframe、筛选出数据并保存数据的代码:
``` python
import pandas as pd
import os
# 定义要读取的文件夹路径
folder_path = "path/to/folder"
# 定义需要筛选的数据关键字
keywords = ["keyword1", "keyword2", "keyword3"]
# 定义保存数据的文件路径
save_path = "path/to/save/file.csv"
# 定义一个空的DataFrame用于保存数据
df = pd.DataFrame()
# 遍历文件夹下的所有文件
for file_name in os.listdir(folder_path):
# 判断文件是否为csv格式
if file_name.endswith(".csv"):
# 读取csv文件数据
file_path = os.path.join(folder_path, file_name)
temp_df = pd.read_csv(file_path)
# 筛选包含关键字的数据
for keyword in keywords:
temp_df = temp_df[temp_df["column_name"].str.contains(keyword)]
# 将筛选后的数据添加到总的DataFrame中
df = df.append(temp_df, ignore_index=True)
# 保存数据到csv文件
df.to_csv(save_path, index=False)
```
需要注意的是,代码中的`column_name`需要替换为实际数据中包含关键字的列名。另外,如果文件夹下有非csv格式的文件,可以根据实际情况进行判断和处理。
阅读全文