python合并多个execl数据,每个表数据从第3行开始,其中指定列去重
时间: 2023-06-15 12:05:30 浏览: 161
可以使用 Python 的 Pandas 库来实现合并多个 Excel 表格,并去重指定列。
1. 首先,需要安装 Pandas 库,可以使用以下命令进行安装:
```
pip install pandas
```
2. 然后,可以使用 Pandas 的 read_excel 函数来读取 Excel 表格数据,并使用 concat 函数来合并多个表格。假设有三个表格需要合并,分别为 table1.xlsx、table2.xlsx 和 table3.xlsx,可以使用以下代码进行合并:
```python
import pandas as pd
# 读取三个表格数据
df1 = pd.read_excel('table1.xlsx', header=2)
df2 = pd.read_excel('table2.xlsx', header=2)
df3 = pd.read_excel('table3.xlsx', header=2)
# 合并表格
df = pd.concat([df1, df2, df3], ignore_index=True)
# 对指定列进行去重
df.drop_duplicates(subset=['列名'], keep='first', inplace=True)
# 将合并后的表格保存为新的 Excel 文件
df.to_excel('merged.xlsx', index=False)
```
其中,header=2 表示从第 3 行开始读取数据,ignore_index=True 表示重新生成行索引,drop_duplicates 函数可以指定要去重的列名,keep='first' 表示保留重复数据的第一条记录,inplace=True 表示直接在原始数据上进行修改,而不是生成新的数据。
3. 最后,可以使用 to_excel 函数将合并后的表格保存为新的 Excel 文件,index=False 表示不保存行索引。
上述代码中的 '列名' 需要替换为实际要去重的列名,例如:
```python
df.drop_duplicates(subset=['姓名'], keep='first', inplace=True)
```
表示根据姓名列进行去重。
阅读全文