用python写两个excel表格指定列对比,标记重复数据的代码
时间: 2024-03-02 09:50:54 浏览: 124
标记Execl数据表重复值
5星 · 资源好评率100%
好的,以下是一个简单的示例代码,用于对比两个 Excel 表格指定列并标记重复的数据:
```python
import pandas as pd
# 读取两个 Excel 文件
df1 = pd.read_excel('example1.xlsx')
df2 = pd.read_excel('example2.xlsx')
# 指定需要对比的列
merge_cols = ['列1', '列2']
# 对比两个数据框
df_merge = pd.merge(df1, df2, on=merge_cols, how='inner', indicator=True)
# 标记重复的数据
df_merge.loc[df_merge['_merge'] == 'both', '标记列'] = '重复'
# 保存标记后的数据框
df_merge.to_excel('example_merged.xlsx', index=False)
```
在这个代码中,我们首先使用 Pandas 库的 `read_excel` 函数读取需要对比的两个 Excel 文件,并将它们存储为两个 Pandas 数据框。然后,我们指定需要对比的列名,将其存储为一个列表。接着,我们使用 `merge` 函数将这两个数据框按照指定的列进行内连接,同时使用 `indicator` 参数添加一列 `_merge` 标记数据是否在两个数据框中都存在。最后,我们使用 `loc` 方法将 `_merge` 列中值为 `both` 的行标记为重复的数据,并在标记列中添加一个标记值。最后,我们使用 `to_excel` 函数将标记后的数据框保存为一个新的 Excel 文件。
请注意,这个示例代码中的文件名、列名和标记值需要根据具体情况进行修改。另外,如果需要对比的列不止两列,需要将列名全部添加到 `merge_cols` 列表中。
阅读全文