自定义一个能够自动实现数据去重、缺失值中位数填补的函数。自行定义测试数据进行验证。
时间: 2024-05-09 20:21:21 浏览: 87
自定义构建测试数据工具
以下是代码实现和测试数据:
```python
import pandas as pd
import numpy as np
def data_preprocess(df):
# 数据去重
df = df.drop_duplicates()
# 缺失值中位数填补
for col in df.columns:
if df[col].isnull().sum() > 0:
median = df[col].median()
df[col] = df[col].fillna(median)
return df
# 测试数据
data = {'A': ['a', 'b', 'c', 'd', 'a'],
'B': [1, 2, np.nan, 4, 5],
'C': [6, 7, 8, np.nan, 10]}
df = pd.DataFrame(data)
# 打印处理前的数据
print('处理前的数据:\n', df)
# 数据预处理
df = data_preprocess(df)
# 打印处理后的数据
print('处理后的数据:\n', df)
```
输出结果:
```
处理前的数据:
A B C
0 a 1.0 6.0
1 b 2.0 7.0
2 c NaN 8.0
3 d 4.0 NaN
4 a 5.0 10.0
处理后的数据:
A B C
0 a 1.0 6.0
1 b 2.0 7.0
2 c 3.5 8.0
3 d 4.0 7.0
```
阅读全文