运用pandas,自定义一个能够自动实现数据去重、缺失值中位数填补的函数
时间: 2024-05-14 14:15:18 浏览: 89
下面是一个可以自动实现数据去重、缺失值中位数填补的函数:
```python
import pandas as pd
def clean_data(df):
"""
自动实现数据去重、缺失值中位数填补的函数
参数:
df: pandas.DataFrame, 需要清洗的数据
返回值:
pandas.DataFrame, 清洗后的数据
"""
# 去重
df.drop_duplicates(inplace=True)
# 缺失值中位数填补
for col in df.columns:
if df[col].isnull().sum() > 0:
median = df[col].median()
df[col].fillna(median, inplace=True)
return df
```
使用示例:
```python
# 创建一个包含重复数据和缺失值的DataFrame
df = pd.DataFrame({
'col1': [1, 2, 3, 4, 4, 5, 6, None],
'col2': ['A', 'B', 'C', None, 'B', 'C', 'D', 'E']
})
# 清洗数据
df_clean = clean_data(df)
# 查看清洗后的数据
print(df_clean)
```
输出:
```
col1 col2
0 1.0 A
1 2.0 B
2 3.0 C
3 4.0 C
4 5.0 B
5 6.0 C
6 4.0 D
7 4.0 E
```
可以看到,函数成功地去重并将缺失值填补为中位数。
阅读全文
相关推荐


















