用Python写代码:查找并删除EXCEL文件中的重复行(某几个字段重复)
时间: 2024-02-24 13:00:06 浏览: 112
python实现查找excel里某一列重复数据并且剔除后打印的方法
5星 · 资源好评率100%
可以使用pandas库来实现查找并删除EXCEL文件中的重复行的功能。
以下是示例代码:
```python
import pandas as pd
# 读取Excel文件
df = pd.read_excel('file.xlsx')
# 指定需要判重的字段
dup_cols = ['col1', 'col2', 'col3']
# 查找重复行
dup_rows = df.duplicated(subset=dup_cols, keep=False)
# 删除重复行
df.drop_duplicates(subset=dup_cols, keep='first', inplace=True)
# 将处理后的数据写入新的Excel文件
df.to_excel('new_file.xlsx', index=False)
```
在上述代码中,我们首先使用pandas库读取了Excel文件,并指定了需要判重的字段。然后,我们使用duplicated()函数查找重复行,并使用drop_duplicates()函数删除重复行。最后,我们将处理后的数据写入了新的Excel文件。
需要注意的是,上述代码只能删除完全相同的重复行。如果需要删除部分相同的重复行,需要根据具体情况进行处理。
阅读全文