使用Python解决对比出两个Excel文件中的不同项并将结果重新写入一个新的Excel文件
时间: 2024-10-12 14:14:55 浏览: 80
在Python中,我们可以使用pandas库来处理Excel文件,特别是`pandas.ExcelFile`和`pandas.DataFrame`这两个功能强大的组件。要找出两个Excel文件的不同之处并创建一个新的Excel文件,可以按照以下步骤操作:
1. 导入必要的库:
```python
import pandas as pd
```
2. 加载两个Excel文件的数据:
```python
excel_file1 = pd.ExcelFile('file1.xlsx')
df1 = excel_file1.parse(sheet_name='Sheet1') # 假设第一张工作表名为'Sheet1'
excel_file2 = pd.ExcelFile('file2.xlsx')
df2 = excel_file2.parse(sheet_name='Sheet1') # 如果两张表格同名,这里同样指定为'Sheet1'
```
3. 比较数据差异:
- 计算行级别的唯一值,找到df1中独有的行:
```python
unique_rows_df1 = df1.drop_duplicates(keep=False)
difference_df1_to_2 = unique_rows_df1[~unique_rows_df1.index.isin(df2.index)]
```
- 或者计算列级别的唯一值,如果比较的是特定列而不是整个行:
```python
columns_of_interest = ['Column1', 'Column2'] # 根据实际需要替换列名
unique_cols_df1 = df1.loc[:, columns_of_interest].drop_duplicates()
difference_cols_df1_to_2 = unique_cols_df1[~unique_cols_df1.isin(df2[columns_of_interest])]
```
4. 创建新的DataFrame存储差异结果,并写入新的Excel文件:
```python
result = difference_df1_to_2 if we_are_comparing_rows else difference_cols_df1_to_2
new_excel_writer = pd.ExcelWriter('comparison_results.xlsx')
result.to_excel(new_excel_writer, sheet_name='Differences', index=False) # 写入新文件
new_excel_writer.save()
```
阅读全文