心脏病预测数据预处理代码
时间: 2023-09-26 20:09:17 浏览: 103
以下是一个简单的心脏病预测数据预处理代码示例,以使用的数据集为 Cleveland Heart Disease 数据集:
```python
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
# 读取数据
data = pd.read_csv("heart.csv")
# 将目标变量转换为0和1的二元变量
data['target'] = np.where(data['target'] > 0, 1, 0)
# 将分类变量转换为虚拟变量
data = pd.get_dummies(data, columns=['sex', 'cp', 'fbs', 'restecg', 'exang', 'slope', 'ca', 'thal'])
# 标准化数值变量
scaler = StandardScaler()
numerical = ['age', 'trestbps', 'chol', 'thalach', 'oldpeak']
data[numerical] = scaler.fit_transform(data[numerical])
# 分割数据集为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(data.drop('target', axis=1), data['target'], test_size=0.2, random_state=42)
```
这段代码的主要步骤包括:
1. 读取 Cleveland Heart Disease 数据集;
2. 将目标变量转换为二元变量;
3. 将分类变量转换为虚拟变量;
4. 对数值变量进行标准化;
5. 将数据集分割为训练集和测试集。
阅读全文