Pyhon excel数据清洗
时间: 2023-09-29 19:11:17 浏览: 106
Python中有多种处理Excel数据的库和工具,其中比较常用的有pandas和openpyxl。以下是使用pandas和openpyxl清洗Excel数据的示例代码。
使用pandas清洗Excel数据:
```python
import pandas as pd
# 读取Excel文件
df = pd.read_excel('data.xlsx')
# 删除空行和重复行
df.dropna(inplace=True)
df.drop_duplicates(inplace=True)
# 修改列名
df.rename(columns={'old_name': 'new_name'}, inplace=True)
# 修改数据类型
df['column_name'] = df['column_name'].astype('int')
# 对某一列进行排序
df.sort_values('column_name', ascending=False, inplace=True)
# 保存修改后的Excel文件
df.to_excel('cleaned_data.xlsx', index=False)
```
使用openpyxl清洗Excel数据:
```python
from openpyxl import load_workbook
# 读取Excel文件
wb = load_workbook('data.xlsx')
ws = wb.active
# 删除空行和重复行
for row in ws:
if all(cell.value is None for cell in row):
ws.delete_rows(row[0].row)
ws.delete_duplicates()
# 修改列名
ws['A1'] = 'new_name'
# 修改数据类型
for row in ws.iter_rows(min_row=2, min_col=1, max_col=1):
cell = row[0]
cell.value = int(cell.value)
# 对某一列进行排序
ws.auto_filter.ref = ws.dimensions
ws.auto_filter.add_sort_condition('B2:B100', descending=True)
# 保存修改后的Excel文件
wb.save('cleaned_data.xlsx')
```
阅读全文