kaggle中中风预测数据集数据清洗代码
时间: 2023-10-02 21:12:11 浏览: 48
下面是一个简单的数据清洗代码示例,用于对Kaggle中的中风预测数据集进行数据清洗:
```python
import pandas as pd
import numpy as np
# 读入原始数据集
data = pd.read_csv("stroke_data.csv")
# 删除缺失值过多的列
data = data.drop(columns=["id", "smoking_status"])
# 处理缺失值
data["bmi"].fillna(data["bmi"].mean(), inplace=True)
data.dropna(inplace=True)
# 将分类变量转换为数值变量
data["gender"] = data["gender"].apply(lambda x: 0 if x == "Female" else 1)
data["ever_married"] = data["ever_married"].apply(lambda x: 0 if x == "No" else 1)
data["work_type"] = data["work_type"].map({"Private": 0, "Self-employed": 1, "Govt_job": 2, "children": 3, "Never_worked": 4})
# 对数值变量进行标准化处理
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
data[["age", "avg_glucose_level", "bmi"]] = scaler.fit_transform(data[["age", "avg_glucose_level", "bmi"]])
# 将目标变量移动到数据集的最后一列
data = data[["gender", "age", "hypertension", "heart_disease", "ever_married", "work_type", "Residence_type", "avg_glucose_level", "bmi", "stroke"]]
```
该代码首先读入原始数据集,并删除缺失值过多的列。接下来,使用平均值填补缺失值,并将分类变量转换为数值变量。最后,对数值变量进行标准化处理,并将目标变量移动到数据集的最后一列。
阅读全文