请你给出更为详细的python代码例子
时间: 2024-03-05 16:52:53 浏览: 15
好的,下面我给出一个更详细的Python代码例子,包含数据清洗和预处理的全部步骤。这个例子是基于一个房价预测数据集的,代码中包含了缺失值处理、数据去重、异常值处理、数据归一化和特征选择等步骤。
```python
import pandas as pd
import numpy as np
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_regression
# 读取数据
data = pd.read_csv('house_price.csv')
# 缺失值处理
data.fillna(method='ffill', inplace=True)
# 数据去重
data.drop_duplicates(subset=['id'], inplace=True)
# 异常值处理
Q1 = data.quantile(0.25)
Q3 = data.quantile(0.75)
IQR = Q3 - Q1
data[(data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 * IQR))] = np.nan
data.fillna(method='ffill', inplace=True)
# 数据归一化
data = (data - data.min()) / (data.max() - data.min())
# 特征选择
X = data.iloc[:, :-1]
y = data.iloc[:, -1]
selector = SelectKBest(f_regression, k=2)
selector.fit(X, y)
X_new = selector.transform(X)
# 输出处理后的数据
print(X_new)
```
以上代码中,首先读取了一个房价预测数据集,然后进行了缺失值处理、数据去重、异常值处理、数据归一化和特征选择等步骤。最后输出处理后的数据。这个例子可以作为数据清洗和预处理的参考,可以根据具体情况进行调整和优化。