python 合并多个execl表格数据,数据从第三行开始到倒数第二行,然后对指定列去重
时间: 2023-06-15 15:05:10 浏览: 195
可以使用 `pandas` 库来实现。
首先需要安装 `pandas` 库,可以使用以下命令安装:
```python
pip install pandas
```
然后,使用 `pandas` 读取多个 `Excel` 表格数据,可以使用 `pandas.read_excel()` 方法,将多个表格数据合并成一个 `DataFrame` 对象,再使用 `drop_duplicates()` 方法对指定列进行去重操作。
以下是示例代码:
```python
import pandas as pd
# 定义要读取的 Excel 文件列表
excel_files = ['file1.xlsx', 'file2.xlsx', 'file3.xlsx']
# 定义要读取的列名
columns = ['column1', 'column2', 'column3']
# 定义要合并的数据起始行和结束行
start_row = 3
end_row = -2
# 定义一个空的 DataFrame 对象
df = pd.DataFrame()
# 循环读取每个 Excel 文件的数据,并添加到 DataFrame 对象中
for file in excel_files:
data = pd.read_excel(file, header=None, skiprows=start_row-1, nrows=end_row-start_row+1, usecols=columns)
df = pd.concat([df, data], ignore_index=True)
# 对指定列进行去重操作
df.drop_duplicates(subset=columns, inplace=True)
# 输出去重后的结果
print(df)
```
其中,`excel_files` 定义要读取的 Excel 文件列表,`columns` 定义要读取的列名,`start_row` 和 `end_row` 定义要合并的数据起始行和结束行,`df` 是空的 DataFrame 对象,使用 `pd.concat()` 方法将每个 Excel 文件的数据添加到 DataFrame 对象中,并使用 `drop_duplicates()` 方法对指定列进行去重操作。
阅读全文