定义一个能自动实现数据去重,缺失值中位数补充的函数
时间: 2024-05-10 17:20:42 浏览: 31
如何使用 一行代码 搞定一组数据的(极值、平均值、中位数、四分位数、数量统计和标准差)
5星 · 资源好评率100%
以下是一个能自动实现数据去重,缺失值中位数补充的Python函数:
```python
import pandas as pd
import numpy as np
def data_preprocessing(df):
# 去重
df.drop_duplicates(inplace=True)
# 中位数补充缺失值
for col in df.columns:
if df[col].dtype != 'object':
median = df[col].median()
df[col].fillna(median, inplace=True)
return df
```
这个函数接受一个 pandas DataFrame 对象作为参数,首先对数据进行去重处理(使用 DataFrame 的 drop_duplicates 方法),然后对每一列进行遍历,对于非 object 类型的列,使用 DataFrame 的 median 方法计算该列的中位数,并用中位数填充该列的缺失值(使用 DataFrame 的 fillna 方法)。最后返回处理后的 DataFrame 对象。
阅读全文