python合并多个execl且合并后指定列去重
时间: 2023-06-14 18:07:23 浏览: 105
可以使用 pandas 库来处理 Excel 文件的合并和去重。
首先,使用 pandas 的 `read_excel()` 函数读取所有要合并的 Excel 文件并存储到一个列表中。例如:
```
import pandas as pd
file_list = ['file1.xlsx', 'file2.xlsx', 'file3.xlsx']
df_list = []
for file in file_list:
df_list.append(pd.read_excel(file))
```
接下来使用 pandas 的 `concat()` 函数将所有 DataFrame 合并成一个,例如:
```
df = pd.concat(df_list)
```
最后,使用 pandas 的 `drop_duplicates()` 函数去除指定列的重复行,例如:
```
df.drop_duplicates(subset=['column_name'], keep='first', inplace=True)
```
其中 `subset` 参数指定需要去重的列名,`keep` 参数指定保留哪个重复行,可以选择保留第一次出现的行或最后一次出现的行。
完整代码示例:
```
import pandas as pd
file_list = ['file1.xlsx', 'file2.xlsx', 'file3.xlsx']
df_list = []
for file in file_list:
df_list.append(pd.read_excel(file))
df = pd.concat(df_list)
df.drop_duplicates(subset=['column_name'], keep='first', inplace=True)
df.to_excel('merged_file.xlsx', index=False)
```
其中 `to_excel()` 函数将合并后的 DataFrame 保存为一个 Excel 文件。
阅读全文