以下代码简写:import pandas as pd # 1. 读取指定表格 df1 = pd.read_excel('result-new.xlsx', sheet_name='Sheet1') df2 = pd.read_excel('基础数据-new.xlsx', sheet_name='本外币') df3 = pd.read_excel('基础数据-new.xlsx', sheet_name='人民币') # 标的表索引列位置及数据位置 grouped = df2.groupby(df2.columns[1]).agg({df2.columns[2]: 'sum', df2.columns[5]: 'sum'}).reset_index() grouped1 = df3.groupby(df2.columns[1]).agg({df3.columns[2]: 'sum', df3.columns[5]: 'sum'}).reset_index() # 合并表1和表2的结果 result = pd.merge(df1, grouped, left_on=df1.columns[1], right_on=grouped.columns[0], how='left') result = pd.merge(result, grouped1, left_on=df1.columns[1], right_on=grouped.columns[0], how='left') # 输出结果到文件 result.to_excel('531本外币比年初.xlsx', index=False)
时间: 2023-08-20 12:04:07 浏览: 97
import pandas as pd
# 读取指定表格
df1, df2, df3 = pd.read_excel('result-new.xlsx', sheet_name='Sheet1'), pd.read_excel('基础数据-new.xlsx', sheet_name='本外币'), pd.read_excel('基础数据-new.xlsx', sheet_name='人民币')
# 标的表索引列位置及数据位置
grouped = df2.groupby(df2.columns[1]).agg({'第三列': 'sum', '第六列': 'sum'}).reset_index()
grouped1 = df3.groupby(df2.columns[1]).agg({'第三列': 'sum', '第六列': 'sum'}).reset_index()
# 合并表1和表2的结果
result = pd.merge(df1, grouped, left_on='第二列', right_on='第二列', how='left')
result = pd.merge(result, grouped1, left_on='第二列', right_on='第二列', how='left')
# 输出结果到文件
result.to_excel('531本外币比年初.xlsx', index=False)
相关问题
代码错:import pandas as pd # 读取第一个 Excel 表格的前两行数据 df1 = pd.read_excel('附件一:2022年12月末存量公司客户管户认领情况表__海沧-1.xlsx', header=[0, 1], nrows=2) # 定义一个空的 DataFrame,用于存储所有 Excel 表格的数据 result = pd.DataFrame() # 循环读取其他 Excel 表格的数据,跳过前两行,拼接到 result 中 for file in [ '附件三:2022年12月末存量机构客户管户认领情况表__海沧支行-1.xlsx', '附件二:2023年3月末新拓公司客户管户认领情况表__海沧-1.xlsx', '附件四:2023年3月末新拓机构客户管户认领情况表__海沧支行-1.xlsx' ]: df = pd.read_excel(file, header=[0, 1], skiprows=2) result = pd.concat([result, df], ignore_index=True) # 将第一个 Excel 表格的前两行和拼接后的所有数据合并 df = pd.concat([df1, result], ignore_index=True) df = df.reset_index() # 输出到新的 Excel 表格中 df.to_excel('new_file.xlsx', index=False)
看起来你在加入 reset_index() 后仍然出现了错误。这可能是因为你的 DataFrame 中的列名或者行名中包含了特殊字符,例如空格、冒号、斜杠等,这些字符在 Excel 中可能会导致问题。你可以尝试修改列名和行名,将其中的特殊字符替换成普通字符,然后再输出到 Excel 表格中。示例代码如下:
```
import pandas as pd
# 读取第一个 Excel 表格的前两行数据
df1 = pd.read_excel('附件一:2022年12月末存量公司客户管户认领情况表__海沧-1.xlsx', header=[0, 1], nrows=2)
# 定义一个空的 DataFrame,用于存储所有 Excel 表格的数据
result = pd.DataFrame()
# 循环读取其他 Excel 表格的数据,跳过前两行,拼接到 result 中
for file in [
'附件三:2022年12月末存量机构客户管户认领情况表__海沧支行-1.xlsx',
'附件二:2023年3月末新拓公司客户管户认领情况表__海沧-1.xlsx',
'附件四:2023年3月末新拓机构客户管户认领情况表__海沧支行-1.xlsx'
]:
df = pd.read_excel(file, header=[0, 1], skiprows=2)
result = pd.concat([result, df], ignore_index=True)
# 将第一个 Excel 表格的前两行和拼接后的所有数据合并,替换列名和行名中的特殊字符
df = pd.concat([df1, result], ignore_index=True)
df.columns = [col.replace(' ', '_').replace(':', '_').replace('/', '_') for col in df.columns]
df.index = [idx.replace(' ', '_').replace(':', '_').replace('/', '_') for idx in df.index]
# 输出到新的 Excel 表格中
df.to_excel('new_file.xlsx', index=False)
```
这里的代码中将列名和行名中的空格、冒号和斜杠替换成了下划线。你可以根据实际情况修改替换的字符。
修改如下代码,读取多个execl表,保留第一行表的前面2行,跳过其余表的前面2行,合并之后的所有数据:import pandas as pd # 读取第一个 Excel 表格的前两行数据 df1 = pd.read_excel('附件一:2022年12月末存量公司客户管户认领情况表__海沧-1.xlsx', header=[0, 1], nrows=2) # 定义一个空的 DataFrame,用于存储所有 Excel 表格的数据 result = pd.DataFrame() # 循环读取其他 Excel 表格的数据,跳过前两行,拼接到 result 中 for file in [ '附件三:2022年12月末存量机构客户管户认领情况表__海沧支行-1.xlsx', '附件二:2023年3月末新拓公司客户管户认领情况表__海沧-1.xlsx', '附件四:2023年3月末新拓机构客户管户认领情况表__海沧支行-1.xlsx' ]: df = pd.read_excel(file, header=[0, 1], skiprows=2) result = pd.concat([result, df], ignore_index=True) # 将第一个 Excel 表格的前两行和拼接后的所有数据合并,替换列名和行名中的特殊字符 df = pd.concat([df1, result], ignore_index=True) # 输出到新的 Excel 表格中 df.to_excel('new_file.xlsx', index=False)
好的,你的代码已经能够读取多个 Excel 表格并合并了,但是有一个问题是,对于第一个 Excel 表格,你只保留了前两行,而对于其他的 Excel 表格,你却跳过了前两行。这就导致了合并后的 DataFrame 中,第一个 Excel 表格的数据行比其他 Excel 表格多了两行,从而引起了问题。
如果你希望保留第一个 Excel 表格的前两行,同时也保留其他 Excel 表格的所有数据行,可以将 skiprows 参数改为一个列表,如 [0, 1],这样第一个 Excel 表格的前两行会被保留,而其他 Excel 表格的前两行会被跳过。修改后的代码如下:
```
import pandas as pd
# 读取第一个 Excel 表格的前两行数据
df1 = pd.read_excel('附件一:2022年12月末存量公司客户管户认领情况表__海沧-1.xlsx', header=[0, 1], nrows=2)
# 定义一个空的 DataFrame,用于存储所有 Excel 表格的数据
result = pd.DataFrame()
# 循环读取其他 Excel 表格的数据,保留第一行表的前两行,其余表跳过前两行,拼接到 result 中
for i, file in enumerate([
'附件三:2022年12月末存量机构客户管户认领情况表__海沧支行-1.xlsx',
'附件二:2023年3月末新拓公司客户管户认领情况表__海沧-1.xlsx',
'附件四:2023年3月末新拓机构客户管户认领情况表__海沧支行-1.xlsx'
]):
skiprows = [0, 1] if i == 0 else 2
df = pd.read_excel(file, header=[0, 1], skiprows=skiprows)
result = pd.concat([result, df], ignore_index=True)
# 将第一个 Excel 表格的前两行和拼接后的所有数据合并,替换列名和行名中的特殊字符
df = pd.concat([df1, result], ignore_index=True)
df.columns = [col.replace(' ', '_').replace(':', '_').replace('/', '_') for col in df.columns]
df.index = [idx.replace(' ', '_').replace(':', '_').replace('/', '_') for idx in df.index]
# 输出到新的 Excel 表格中
df.to_excel('new_file.xlsx', index=False)
```
在代码中,使用了 enumerate() 函数来获取当前循环的表格序号 i,然后根据 i 的值来决定是否跳过前两行。对于第一个 Excel 表格,i 的值为 0,因此使用 [0, 1] 保留前两行;对于其他 Excel 表格,i 的值不为 0,因此跳过前两行。
阅读全文