生成一段数据预处理的Python代码
时间: 2023-12-25 17:16:46 浏览: 138
好的,以下是一段简单的数据预处理Python代码:
```python
import pandas as pd
import numpy as np
# 读取数据集
df = pd.read_csv('data.csv')
# 删除重复行
df.drop_duplicates(inplace=True)
# 缺失值处理
df.fillna(value=np.mean(df['column_name']), inplace=True)
# 特征工程
df['new_column'] = df['column_1'] + df['column_2']
# 标准化数据
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df_scaled = scaler.fit_transform(df)
# 将数据集分为训练集和测试集
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df_scaled, df['target_column'], test_size=0.2, random_state=42)
# 保存处理后的数据集
df_scaled.to_csv('processed_data.csv', index=False)
```
以上代码包括了读取数据集、删除重复行、缺失值处理、特征工程、标准化数据和将数据集分为训练集和测试集等常见的数据预处理步骤。
阅读全文