python 提取多张execl表格的指定表内容,并合并指定列内容,同时对指定列去重
时间: 2024-04-30 21:19:41 浏览: 18
可以使用 pandas 库来提取和合并 Excel 表格。具体步骤如下:
1. 安装 pandas 库,可以使用以下命令:`pip install pandas`
2. 导入 pandas 库:`import pandas as pd`
3. 使用 pandas 的 `read_excel` 函数来读取 Excel 文件,例如:`df1 = pd.read_excel('file1.xlsx', sheet_name='Sheet1')`
4. 使用 `concat` 函数来合并多个表格,例如:`df = pd.concat([df1, df2, df3])`
5. 使用 `groupby` 函数来按指定列进行分组,例如:`grouped = df.groupby(['Column1', 'Column2'])`
6. 使用 `agg` 函数来对指定列进行合并操作,例如:`result = grouped.agg({'Column3': 'sum', 'Column4': 'count'})`
7. 使用 `drop_duplicates` 函数来去重,例如:`result = result.drop_duplicates(['Column1', 'Column2'])`
完整代码示例:
```
import pandas as pd
# 读取 Excel 表格
df1 = pd.read_excel('file1.xlsx', sheet_name='Sheet1')
df2 = pd.read_excel('file2.xlsx', sheet_name='Sheet1')
df3 = pd.read_excel('file3.xlsx', sheet_name='Sheet1')
# 合并表格
df = pd.concat([df1, df2, df3])
# 分组并合并指定列
grouped = df.groupby(['Column1', 'Column2'])
result = grouped.agg({'Column3': 'sum', 'Column4': 'count'})
# 去重
result = result.drop_duplicates(['Column1', 'Column2'])
```
其中,`Column1`、`Column2`、`Column3`、`Column4` 分别为需要操作的列名。需要根据实际情况进行修改。