中风预测数据集描述性统计代码
时间: 2024-01-25 21:04:31 浏览: 27
以下是中风预测数据集的描述性统计代码,使用Python中的pandas和numpy库:
```python
import pandas as pd
import numpy as np
# 读取数据集
data = pd.read_csv("stroke_prediction_dataset.csv")
# 描述性统计
print("数据集描述性统计:\n")
print(data.describe())
# 缺失值统计
print("\n数据集缺失值统计:\n")
print(data.isnull().sum())
```
该代码首先使用pandas库读取中风预测数据集的csv文件,然后使用describe()方法生成数据集的描述性统计信息。接着使用isnull().sum()方法统计数据集中每个特征的缺失值数量。
相关问题
kaggle中中风预测数据集数据清洗代码
下面是一个简单的数据清洗代码示例,用于对Kaggle中的中风预测数据集进行数据清洗:
```python
import pandas as pd
import numpy as np
# 读入原始数据集
data = pd.read_csv("stroke_data.csv")
# 删除缺失值过多的列
data = data.drop(columns=["id", "smoking_status"])
# 处理缺失值
data["bmi"].fillna(data["bmi"].mean(), inplace=True)
data.dropna(inplace=True)
# 将分类变量转换为数值变量
data["gender"] = data["gender"].apply(lambda x: 0 if x == "Female" else 1)
data["ever_married"] = data["ever_married"].apply(lambda x: 0 if x == "No" else 1)
data["work_type"] = data["work_type"].map({"Private": 0, "Self-employed": 1, "Govt_job": 2, "children": 3, "Never_worked": 4})
# 对数值变量进行标准化处理
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
data[["age", "avg_glucose_level", "bmi"]] = scaler.fit_transform(data[["age", "avg_glucose_level", "bmi"]])
# 将目标变量移动到数据集的最后一列
data = data[["gender", "age", "hypertension", "heart_disease", "ever_married", "work_type", "Residence_type", "avg_glucose_level", "bmi", "stroke"]]
```
该代码首先读入原始数据集,并删除缺失值过多的列。接下来,使用平均值填补缺失值,并将分类变量转换为数值变量。最后,对数值变量进行标准化处理,并将目标变量移动到数据集的最后一列。
中风预测数据集数据清洗或预处理代码
好的,以下是一个可能的中风预测数据集数据清洗或预处理代码示例:
```python
import pandas as pd
import numpy as np
# 读取数据集
df = pd.read_csv('stroke_dataset.csv')
# 处理缺失值
df['bmi'].fillna(df['bmi'].mean(), inplace=True) # 用平均值填充 BMI 列的缺失值
df.dropna(inplace=True) # 删除其他含有缺失值的行
# 处理异常值
df = df[df['bmi'] < 50] # 去除 BMI 大于 50 的异常值
df = df[df['avg_glucose_level'] < 300] # 去除血糖平均水平大于 300 的异常值
# 处理分类变量
df['gender'] = df['gender'].map({'Male': 0, 'Female': 1, 'Other': 2})
df['ever_married'] = df['ever_married'].map({'No': 0, 'Yes': 1})
df['work_type'] = df['work_type'].map({'Private': 0, 'Self-employed': 1, 'Govt_job': 2, 'children': 3, 'Never_worked': 4})
df['Residence_type'] = df['Residence_type'].map({'Rural': 0, 'Urban': 1})
df['smoking_status'] = df['smoking_status'].map({'never smoked': 0, 'formerly smoked': 1, 'smokes': 2, 'Unknown': 3})
# 数据标准化
cols_to_scale = ['age', 'avg_glucose_level', 'bmi']
for col in cols_to_scale:
mean = df[col].mean()
std = df[col].std()
df[col] = (df[col] - mean) / std
# 将分类变量转换为整数类型
df = df.astype({'gender': 'int', 'ever_married': 'int', 'work_type': 'int', 'Residence_type': 'int', 'smoking_status': 'int'})
# 保存处理后的数据集
df.to_csv('stroke_dataset_cleaned.csv', index=False)
```
这段代码可以执行以下操作:
1. 读取数据集,将缺失值进行处理,用平均值填充 BMI 列的缺失值,删除其他含有缺失值的行;
2. 处理异常值,去除 BMI 大于 50 和血糖平均水平大于 300 的异常值;
3. 处理分类变量,将分类变量转换为整数类型;
4. 进行数据标准化,对 age、avg_glucose_level 和 bmi 进行标准化;
5. 保存处理后的数据集。
希望这个代码示例能对你有所帮助。