python合并多个execl数据,数据从第3行开始,其中指定列去重
时间: 2023-06-15 19:05:46 浏览: 233
可以使用 pandas 库来处理 Excel 数据,具体步骤如下:
1. 导入 pandas 库
```python
import pandas as pd
```
2. 读取 Excel 文件
假设有三个 Excel 文件 `file1.xlsx`、`file2.xlsx`、`file3.xlsx`,可以使用 `pd.read_excel()` 方法读取:
```python
df1 = pd.read_excel('file1.xlsx', header=2)
df2 = pd.read_excel('file2.xlsx', header=2)
df3 = pd.read_excel('file3.xlsx', header=2)
```
其中 `header=2` 表示从第 3 行开始读取数据。
3. 合并数据
可以使用 `pd.concat()` 方法将三个 DataFrame 合并:
```python
df = pd.concat([df1, df2, df3])
```
4. 去重
假设需要去重的列为 `column1`,可以使用 `drop_duplicates()` 方法:
```python
df = df.drop_duplicates(subset=['column1'])
```
完整代码如下:
```python
import pandas as pd
df1 = pd.read_excel('file1.xlsx', header=2)
df2 = pd.read_excel('file2.xlsx', header=2)
df3 = pd.read_excel('file3.xlsx', header=2)
df = pd.concat([df1, df2, df3])
df = df.drop_duplicates(subset=['column1'])
```
其中 `column1` 需要替换为实际需要去重的列名。
阅读全文