excel 表格输入pandas,去重处理完之后,再写入excel中,并且按照每50万行存储为一个单独的表格。
时间: 2024-03-22 10:38:04 浏览: 48
可以使用 Pandas 的 `read_excel` 和 `to_excel` 方法读写 Excel 文件,以及 `drop_duplicates` 方法进行去重处理。同时,可以结合 `ExcelWriter` 和 `chunksize` 参数实现将数据写入到多个工作表中,每个工作表最多包含 50 万行数据。示例代码如下:
```python
import pandas as pd
# 读取 Excel 文件中的数据
df = pd.read_excel('input.xlsx')
# 对数据进行去重处理
df = df.drop_duplicates()
# 将数据按行进行分块
chunks = pd.read_excel('input.xlsx', sheet_name=None, chunksize=500000)
# 创建 ExcelWriter 对象
writer = pd.ExcelWriter('output.xlsx')
# 遍历每个数据块,将数据写入到工作表中
for i, (_, chunk) in enumerate(chunks.items()):
# 构造工作表名称
sheet_name = 'Sheet{}'.format(i + 1)
# 将数据写入到工作表中
chunk.to_excel(writer, sheet_name=sheet_name, index=False)
# 保存 Excel 文件
writer.save()
```
这段代码将 Excel 文件 `input.xlsx` 中的数据读入到 Pandas 的 DataFrame 中,然后对数据进行去重处理。接着,将数据按行进行分块,每块最多包含 50 万行数据。然后,将每个数据块写入到一个新的工作表中,并将这些工作表保存到一个名为 `output.xlsx` 的 Excel 文件中。
阅读全文