python数据预处理代码模板
时间: 2024-07-13 12:01:37 浏览: 152
在Python中,数据预处理是一个关键步骤,通常涉及清洗、转换、整合原始数据,以便于后续分析和建模。以下是一个简单的数据预处理代码模板示例:
```python
# 导入所需库
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler, LabelEncoder
# 1. 加载数据
data = pd.read_csv('your_data.csv') # 替换为你的数据文件路径
# 检查缺失值
print(data.isnull().sum()) # 查看是否存在缺失值
# 2. 数据清洗
# 删除含有大量缺失值的列
data.dropna(thresh=data.shape*0.75, axis=1, inplace=True)
# 处理异常值
Q1 = data.quantile(0.25)
Q3 = data.quantile(0.75)
IQR = Q3 - Q1
data = data[~((data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 * IQR))).any(axis=1)]
# 3. 数据转换
# 对数值型特征标准化
num_features = data.select_dtypes(include='number')
scaler = StandardScaler()
data[num_features.columns] = scaler.fit_transform(num_features)
# 对类别变量编码
cat_features = data.select_dtypes(include='object')
le = LabelEncoder()
data[cat_features.columns] = le.fit_transform(data[cat_features.columns])
# 4. 划分训练集和测试集
X = data.drop('target_column', axis=1) # 将目标列替换为你需要预测的列
y = data['target_column']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 现在,X_train和X_test已经是预处理后的数据,可以用于模型训练了。
阅读全文