拿python代码去重excel文件,记录每一个重复的个数,并且保存
时间: 2024-02-12 21:06:04 浏览: 112
利用python处理excel文件的数据
可以使用pandas库读取Excel文件,并使用value_counts()函数统计每个重复项的个数,最后使用to_excel()函数保存新的Excel文件。
以下是示例代码:
```python
import pandas as pd
# 读取Excel文件
df = pd.read_excel('filename.xlsx')
# 统计重复项个数
duplicates = df.duplicated(keep=False)
counts = duplicates.value_counts()
# 保存每个重复项的个数
counts_df = pd.DataFrame({'Duplicates': counts.index, 'Count': counts.values})
counts_df.to_excel('duplicate_counts.xlsx', index=False)
# 去重并保存新的Excel文件
df.drop_duplicates(inplace=True)
df.to_excel('new_filename.xlsx', index=False)
```
其中,'filename.xlsx'是需要去重的Excel文件名,'new_filename.xlsx'是保存去重后数据的Excel文件名,'duplicate_counts.xlsx'是保存每个重复项个数的Excel文件名。
阅读全文