数据预处理 Python 代码实现
时间: 2023-08-27 20:16:16 浏览: 175
当进行数据预处理时,我们通常会使用一些流行的Python库,如pandas和scikit-learn。以下是一些常见的数据预处理操作的示例代码:
1. 数据清洗:
```python
import pandas as pd
# 去除重复值
df.drop_duplicates()
# 处理异常值
df = df[(df['column'] > lower_threshold) & (df['column'] < upper_threshold)]
# 处理缺失值
df.dropna() # 删除包含缺失值的行
df.fillna(value) # 用指定值填充缺失值
```
2. 缺失值处理:
```python
import pandas as pd
from sklearn.impute import SimpleImputer
# 使用均值填充缺失值
imputer = SimpleImputer(strategy='mean')
imputed_data = imputer.fit_transform(df)
```
3. 特征选择:
```python
from sklearn.feature_selection import SelectKBest, chi2
# 使用卡方检验选择K个最好的特征
selector = SelectKBest(chi2, k=5)
selected_features = selector.fit_transform(X, y)
```
4. 特征缩放:
```python
from sklearn.preprocessing import MinMaxScaler
# 使用最小-最大缩放将特征缩放到指定范围
scaler = MinMaxScaler(feature_range=(0, 1))
scaled_data = scaler.fit_transform(X)
```
这些是一些常见的数据预处理操作的示例代码,你可以根据具体需求进行调整和扩展。
阅读全文