PY做EXCEL的数据清理
时间: 2024-03-14 16:46:39 浏览: 15
在 Python 中,可以使用 pandas 库来进行 Excel 数据的清理和处理。以下是一些常用的数据清理操作:
1. 去除重复数据
使用 pandas 的 drop_duplicates() 方法可以去除 Excel 表格中的重复数据。例如,下面的代码可以去除名为 data 的 DataFrame 中所有列的重复行:
```
import pandas as pd
data.drop_duplicates(inplace=True)
```
2. 删除空行或空列
使用 pandas 的 dropna() 方法可以删除 Excel 表格中的空行或空列。例如,下面的代码可以删除名为 data 的 DataFrame 中的空行和空列:
```
import pandas as pd
data.dropna(axis=0, how='all', inplace=True) # 删除空行
data.dropna(axis=1, how='all', inplace=True) # 删除空列
```
axis 参数指定删除的方向,0 表示删除行,1 表示删除列;how 参数指定删除的条件,'all' 表示只要该行或该列全部为空,就删除。
3. 数据类型转换
使用 pandas 的 astype() 方法可以将 Excel 表格中的数据类型进行转换。例如,下面的代码可以将名为 data 的 DataFrame 中的字符串类型列转换为整数类型:
```
import pandas as pd
data['列名'] = data['列名'].astype(int)
```
4. 缺失值填充
使用 pandas 的 fillna() 方法可以对 Excel 表格中的缺失值进行填充。例如,下面的代码可以将名为 data 的 DataFrame 中的缺失值填充为 0:
```
import pandas as pd
data.fillna(0, inplace=True)
```
5. 数据过滤
使用 pandas 的 query() 方法可以对 Excel 表格中的数据进行过滤。例如,下面的代码可以筛选出名为 data 的 DataFrame 中“列名”等于 10 的行:
```
import pandas as pd
data.query('列名 == 10')
```
以上是一些常用的 Excel 数据清理操作,可以通过它们来对 Excel 表格进行清理和处理。