kaggle中中风预测数据集数据清洗和预处理代码
时间: 2023-10-02 12:13:06 浏览: 127
Kaggle里的房价预测的训练数据集和测试数据集
5星 · 资源好评率100%
以下是一个基本的数据清洗和预处理代码示例,适用于Kaggle的中风预测数据集:
```
import pandas as pd
import numpy as np
# 读入数据集
df = pd.read_csv("stroke.csv")
# 删除无关变量
df = df.drop(["id"], axis = 1)
# 处理缺失值
df = df.fillna(method = "ffill")
# 处理分类变量
df = pd.get_dummies(df, columns = ["gender", "ever_married", "work_type", "Residence_type", "smoking_status"])
# 处理连续变量
df["age"] = pd.cut(df["age"], bins = [0, 18, 35, 50, 65, 100],
labels = ["Under 18", "18-35", "35-50", "50-65", "Over 65"])
# 标准化数值变量
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
df[["avg_glucose_level", "bmi"]] = scaler.fit_transform(df[["avg_glucose_level", "bmi"]])
# 保存处理好的数据集
df.to_csv("cleaned_stroke.csv", index = False)
```
这个示例代码做了以下几件事情:
1. 读入原始数据集,并删除"ID"这个无关变量;
2. 使用ffill方法填充缺失值;
3. 使用pd.get_dummies方法将分类变量转化为数值变量;
4. 使用pd.cut方法将age变量离散化;
5. 使用sklearn.preprocessing库中的StandardScaler方法进行标准化;
6. 将处理好的数据集保存为cleaned_stroke.csv文件。
需要注意的是,数据清洗和预处理是非常灵活的,具体操作需要根据实际情况来调整。
阅读全文