修改如下代码,读取多个execl表,保留第一行表的前面2行,跳过其余表的前面2行,合并之后的所有数据:import pandas as pd # 读取第一个 Excel 表格的前两行数据 df1 = pd.read_excel('附件一:2022年12月末存量公司客户管户认领情况表__海沧-1.xlsx', header=[0, 1], nrows=2) # 定义一个空的 DataFrame,用于存储所有 Excel 表格的数据 result = pd.DataFrame() # 循环读取其他 Excel 表格的数据,跳过前两行,拼接到 result 中 for file in [ '附件三:2022年12月末存量机构客户管户认领情况表__海沧支行-1.xlsx', '附件二:2023年3月末新拓公司客户管户认领情况表__海沧-1.xlsx', '附件四:2023年3月末新拓机构客户管户认领情况表__海沧支行-1.xlsx' ]: df = pd.read_excel(file, header=[0, 1], skiprows=2) result = pd.concat([result, df], ignore_index=True) # 将第一个 Excel 表格的前两行和拼接后的所有数据合并,替换列名和行名中的特殊字符 df = pd.concat([df1, result], ignore_index=True) # 输出到新的 Excel 表格中 df.to_excel('new_file.xlsx', index=False)
时间: 2024-01-21 17:05:12 浏览: 135
多表合并加表名区分各数据来自哪个表
好的,你的代码已经能够读取多个 Excel 表格并合并了,但是有一个问题是,对于第一个 Excel 表格,你只保留了前两行,而对于其他的 Excel 表格,你却跳过了前两行。这就导致了合并后的 DataFrame 中,第一个 Excel 表格的数据行比其他 Excel 表格多了两行,从而引起了问题。
如果你希望保留第一个 Excel 表格的前两行,同时也保留其他 Excel 表格的所有数据行,可以将 skiprows 参数改为一个列表,如 [0, 1],这样第一个 Excel 表格的前两行会被保留,而其他 Excel 表格的前两行会被跳过。修改后的代码如下:
```
import pandas as pd
# 读取第一个 Excel 表格的前两行数据
df1 = pd.read_excel('附件一:2022年12月末存量公司客户管户认领情况表__海沧-1.xlsx', header=[0, 1], nrows=2)
# 定义一个空的 DataFrame,用于存储所有 Excel 表格的数据
result = pd.DataFrame()
# 循环读取其他 Excel 表格的数据,保留第一行表的前两行,其余表跳过前两行,拼接到 result 中
for i, file in enumerate([
'附件三:2022年12月末存量机构客户管户认领情况表__海沧支行-1.xlsx',
'附件二:2023年3月末新拓公司客户管户认领情况表__海沧-1.xlsx',
'附件四:2023年3月末新拓机构客户管户认领情况表__海沧支行-1.xlsx'
]):
skiprows = [0, 1] if i == 0 else 2
df = pd.read_excel(file, header=[0, 1], skiprows=skiprows)
result = pd.concat([result, df], ignore_index=True)
# 将第一个 Excel 表格的前两行和拼接后的所有数据合并,替换列名和行名中的特殊字符
df = pd.concat([df1, result], ignore_index=True)
df.columns = [col.replace(' ', '_').replace(':', '_').replace('/', '_') for col in df.columns]
df.index = [idx.replace(' ', '_').replace(':', '_').replace('/', '_') for idx in df.index]
# 输出到新的 Excel 表格中
df.to_excel('new_file.xlsx', index=False)
```
在代码中,使用了 enumerate() 函数来获取当前循环的表格序号 i,然后根据 i 的值来决定是否跳过前两行。对于第一个 Excel 表格,i 的值为 0,因此使用 [0, 1] 保留前两行;对于其他 Excel 表格,i 的值不为 0,因此跳过前两行。
阅读全文