首页用python写两个excel表格指定列对比，标记重复数据的代码

用python写两个excel表格指定列对比，标记重复数据的代码

时间: 2024-03-02 09:50:54 浏览: 124

标记Execl数据表重复值

5星 · 资源好评率100%

标记Execl数据表中重复值,内容很详细可标记出具体与哪行包含重复数据

好的，以下是一个简单的示例代码，用于对比两个 Excel 表格指定列并标记重复的数据： ```python import pandas as pd # 读取两个 Excel 文件 df1 = pd.read_excel('example1.xlsx') df2 = pd.read_excel('example2.xlsx') # 指定需要对比的列 merge_cols = ['列1', '列2'] # 对比两个数据框 df_merge = pd.merge(df1, df2, on=merge_cols, how='inner', indicator=True) # 标记重复的数据 df_merge.loc[df_merge['_merge'] == 'both', '标记列'] = '重复' # 保存标记后的数据框 df_merge.to_excel('example_merged.xlsx', index=False) ``` 在这个代码中，我们首先使用 Pandas 库的 `read_excel` 函数读取需要对比的两个 Excel 文件，并将它们存储为两个 Pandas 数据框。然后，我们指定需要对比的列名，将其存储为一个列表。接着，我们使用 `merge` 函数将这两个数据框按照指定的列进行内连接，同时使用 `indicator` 参数添加一列 `_merge` 标记数据是否在两个数据框中都存在。最后，我们使用 `loc` 方法将 `_merge` 列中值为 `both` 的行标记为重复的数据，并在标记列中添加一个标记值。最后，我们使用 `to_excel` 函数将标记后的数据框保存为一个新的 Excel 文件。请注意，这个示例代码中的文件名、列名和标记值需要根据具体情况进行修改。另外，如果需要对比的列不止两列，需要将列名全部添加到 `merge_cols` 列表中。

阅读全文