拿python代码去重excel文件并且保存
时间: 2023-08-20 07:13:33 浏览: 68
可以使用pandas库来读取Excel文件,并使用drop_duplicates()函数去重,最后使用to_excel()函数保存新的Excel文件。
以下是示例代码:
```python
import pandas as pd
# 读取Excel文件
df = pd.read_excel('filename.xlsx')
# 去重
df.drop_duplicates(inplace=True)
# 保存新的Excel文件
df.to_excel('new_filename.xlsx', index=False)
```
其中,'filename.xlsx'是需要去重的Excel文件名,'new_filename.xlsx'是保存去重后数据的Excel文件名。如果需要保留原Excel文件中的列名,可以将to_excel()函数中的index参数设置为True。
相关问题
拿python代码去重excel文件,记录每一个重复的个数,并且保存
可以使用pandas库读取Excel文件,并使用value_counts()函数统计每个重复项的个数,最后使用to_excel()函数保存新的Excel文件。
以下是示例代码:
```python
import pandas as pd
# 读取Excel文件
df = pd.read_excel('filename.xlsx')
# 统计重复项个数
duplicates = df.duplicated(keep=False)
counts = duplicates.value_counts()
# 保存每个重复项的个数
counts_df = pd.DataFrame({'Duplicates': counts.index, 'Count': counts.values})
counts_df.to_excel('duplicate_counts.xlsx', index=False)
# 去重并保存新的Excel文件
df.drop_duplicates(inplace=True)
df.to_excel('new_filename.xlsx', index=False)
```
其中,'filename.xlsx'是需要去重的Excel文件名,'new_filename.xlsx'是保存去重后数据的Excel文件名,'duplicate_counts.xlsx'是保存每个重复项个数的Excel文件名。
python excel去重
可以使用 pandas 库中的 drop_duplicates() 方法来实现 Excel 去重。具体代码如下:
```python
import pandas as pd
# 读取 Excel 文件
df = pd.read_excel('example.xlsx')
# 去重
df.drop_duplicates(inplace=True)
# 保存去重后的结果到新的 Excel 文件
df.to_excel('example_new.xlsx', index=False)
```
其中,`example.xlsx` 是要去重的 Excel 文件名,`example_new.xlsx` 是去重后保存的新文件名。`drop_duplicates()` 方法默认会对所有列进行去重,如果只想对某些列进行去重,可以指定 `subset` 参数,例如:
```python
df.drop_duplicates(subset=['列名1', '列名2'], inplace=True)
```
这样就只会对指定的列进行去重。