生成一段读取csv文件并进行预处理的代码
时间: 2023-08-13 20:05:01 浏览: 85
好的,以下是一段读取csv文件并进行预处理的Python代码:
```python
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
# 读取数据集
df = pd.read_csv('data.csv')
# 删除重复行
df.drop_duplicates(inplace=True)
# 缺失值处理
df.fillna(value=np.mean(df['column_name']), inplace=True)
# 特征工程
df['new_column'] = df['column_1'] + df['column_2']
# 标准化数据
scaler = StandardScaler()
df_scaled = scaler.fit_transform(df)
# 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(df_scaled, df['target_column'], test_size=0.2, random_state=42)
# 输出预处理后的数据集信息
print("训练集样本数:{}, 测试集样本数:{}".format(X_train.shape[0], X_test.shape[0]))
print("特征数:{}".format(X_train.shape[1]))
```
以上代码包括了读取csv文件、删除重复行、缺失值处理、特征工程、标准化数据和将数据集分为训练集和测试集等常见的数据预处理步骤。最后输出了预处理后的数据集信息,包括训练集样本数、测试集样本数和特征数。
阅读全文