首先需要遍历所有的子文件夹，获取到所有的Excel文件路径。然后，需要读取每个Excel文件的数据，将其中有效的字段筛选出来（在筛选有效字段时，同一个字段在不同excel表中有多种不同的命名方式，如何批量做筛选），同时将字段名称和顺序进行统一。接着，需要获取每个Excel文件的文件名，从中提取出日期和地域信息，作为新增的两个字段加入汇总表。将所有的Excel数据汇总到一个新的Excel表中，使用自定义的表头命名每个字段。如果某个字段本应是数值类型，但一些表却是以文本类型保存的，在汇总表中需要把这个字段需要统一转化为数值类型保存。如果某个表中缺少对应字段，则汇总时显示空值。

时间: 2024-02-20 19:02:33 浏览: 153

好的，根据你的描述，我可以提供一些思路和建议： 1. 遍历所有子文件夹，获取Excel文件路径可以使用Python内置库os和glob来完成。例如： ```python import os import glob # 获取所有子文件夹下的Excel文件路径 excel_files = [] for root, dirs, files in os.walk('path/to/folder'): for file in files: if file.endswith('.xlsx'): excel_files.append(os.path.join(root, file)) ``` 2. 读取Excel文件的数据可以使用Python的第三方库pandas来完成，pandas可以自动识别Excel中的数据类型，方便进行数据处理。例如： ```python import pandas as pd # 读取Excel文件数据 df = pd.read_excel('path/to/excel_file.xlsx', sheet_name='Sheet1') # 筛选有效字段 valid_columns = ['column1', 'column2', 'column3'] df = df[valid_columns] # 统一字段名称和顺序 df = df.rename(columns={'column1': 'columnA', 'column2': 'columnB', 'column3': 'columnC'}) ``` 3. 获取Excel文件名中的日期和地域信息可以使用Python的正则表达式来提取，具体提取方法需要根据Excel文件名的命名规则进行调整。例如： ```python import re # 获取日期和地域信息 filename = '2022-01-01-Shanghai.xlsx' match = re.match(r'(\d{4}-\d{2}-\d{2})-(.+)\.xlsx', filename) date = match.group(1) region = match.group(2) ``` 4. 将所有Excel数据汇总到一个新的Excel表中，可以使用pandas的concat函数来完成，同时可以使用自定义的表头命名每个字段。例如： ```python # 将所有Excel数据汇总到一个新的Excel表中 all_data = [] for excel_file in excel_files: df = pd.read_excel(excel_file, sheet_name='Sheet1') all_data.append(df) merged_data = pd.concat(all_data, ignore_index=True) # 使用自定义的表头命名每个字段 column_names = ['columnA', 'columnB', 'columnC', 'date', 'region'] merged_data.columns = column_names ``` 5. 如果某个字段本应是数值类型，但一些表却是以文本类型保存的，在汇总表中需要把这个字段需要统一转化为数值类型保存。可以使用pandas的astype函数来完成类型转换。例如： ```python # 将某个字段转换为数值类型 merged_data['columnA'] = merged_data['columnA'].astype(float) ``` 6. 如果某个表中缺少对应字段，则汇总时显示空值。可以使用pandas的merge函数来完成数据合并，merge函数可以指定合并方式和合并键，缺失值由NaN表示。例如： ```python # 合并数据 merged_data = pd.merge(merged_data, other_data, how='left', on='key') ``` 希望以上思路和建议能够对你有所帮助！

阅读全文

相关推荐

python遍历文件夹下所有excel文件

遍历文件夹名称及文件内数据_遍历文件夹_读取文件_源码

Excel VBA 操作 拆分当前Excel表中 / 所选取文件夹所有子文件中 所有sheet保存到对应文件夹路径中拆分表内

遍历指定文件夹下的XML，读取每个XML数据，生成到EXCEL导出，美化Excel单元格格式，合并单元格

用python 遍历一个文件夹中 多个nc文件并读取其数据 做成Excel表格

遍历一个文件夹下的所有txt文件，并将每一个txt作为一行保存到excel中

pandas遍历文件夹所有excel文件

遍历一个文件夹下所有子文件夹的名称，如果子文件夹的名称在excel表的name列中，则print出来。python代码

python遍历文件夹中所有excel文件

遍历一个文件夹下次一级的所有子文件夹的名称，如果子文件夹的名称在excel表的name列中，则print出来。python代码

pandas 遍历文件夹下的Excel文件，并把每个Excel文件内每个sheet中，特定列包含给定值的数据，转存到同一个新的Excel中

使用python遍历某一文件夹中的所有文件，并将内容导出到excel表格中

python 遍历文件夹下所有名字包含 bvi o2c的文件，并读取每个excel文件中“发票类型”为正常发票的个数

用python中pandas写一段合并excel表格的代码。要求：多个excel文件在同一个文件夹下，遍历文件夹，每个excel表格数据结构相同

在一个文件夹下有众多子文件夹，每个子文件夹下都有数量相同的excel文件。每个excel文件在不同的子文件夹中都拥有相同的名字。在matlab中怎样将不同文件夹下具有相同名字的excel文件中的数据整合到一个新的excel文件中

vba遍历文件夹下所有excel文件的表格内容

用python遍历某一文件夹下所有的excle文件

遍历文件夹，依次打开EXCEL文件 再保存

基于springboot的在线答疑系统文件源码（java毕业设计完整源码+LW）.zip

最简单，最实用的数据库文档生成工具，支持SqlServer/MySQL/Oracle/PostgreSQL/DB2/SQLite数据库

大家在看

Mellanox IB交换机用户手册

WRF model前处理.md

丹麦电力电价预测 预测未来24小时的电价 pytorch + lstm + 历史特征和价格 + 时间序列

电法正反演方法和软件使用介绍(“反演”文档)共33张.pptx

和利时macs3手册

最新推荐

python遍历文件夹下所有excel文件

vue读取本地的excel文件并显示在网页上方法示例

基于springboot的在线答疑系统文件源码（java毕业设计完整源码+LW）.zip

WildFly 8.x中Apache Camel结合REST和Swagger的演示

管理建模和仿真的文件

【声子晶体模拟全能指南】：20年经验技术大佬带你从入门到精通

2024-07-27怎么用python转换成农历日期

FDFS客户端Python库1.2.6版本发布

"互动学习：行动中的多样性与论文攻读经历"

传感器集成全攻略：ICM-42688-P运动设备应用详解

Excel VBA 操作拆分当前Excel表中 / 所选取文件夹所有子文件中所有sheet保存到对应文件夹路径中拆分表内

用python 遍历一个文件夹中多个nc文件并读取其数据做成Excel表格

遍历文件夹，依次打开EXCEL文件再保存

丹麦电力电价预测预测未来24小时的电价 pytorch + lstm + 历史特征和价格 + 时间序列