用python对kaggle上的心血管疾病数据集使用随机森林算法进行预测,并绘制roc曲线进行可视化
时间: 2024-03-31 16:33:08 浏览: 104
好的,我会尽力回答你的问题。首先,你需要下载kaggle上的心血管疾病数据集,并安装必要的Python库。使用以下命令安装所需的库:
```python
!pip install pandas numpy matplotlib seaborn sklearn
```
然后,你可以使用以下代码读取和预处理数据:
```python
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import confusion_matrix, classification_report, roc_curve, roc_auc_score
data = pd.read_csv('heart.csv')
X = data.drop('target', axis=1)
y = data['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
这里,我们将数据集分为训练集和测试集,使用随机森林算法进行分类,然后绘制ROC曲线进行可视化。
```python
# Fit the model
rfc = RandomForestClassifier(n_estimators=200)
rfc.fit(X_train, y_train)
# Predict the test set results
y_pred = rfc.predict(X_test)
# Print the classification report and confusion matrix
print(classification_report(y_test, y_pred))
print(confusion_matrix(y_test, y_pred))
# Calculate the ROC curve and AUC score
fpr, tpr, _ = roc_curve(y_test, y_pred)
auc = roc_auc_score(y_test, y_pred)
print(f'ROC AUC Score: {auc}')
# Plot the ROC curve
plt.plot(fpr, tpr, color='blue', label=f'ROC Curve (AUC = {auc:.2f})')
plt.plot([0, 1], [0, 1], color='red', linestyle='--', label='Random Guessing')
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic (ROC) Curve')
plt.legend()
plt.show()
```
这里我们使用了200个决策树来构建随机森林分类器,然后预测测试集并打印出分类报告和混淆矩阵。接着,计算ROC曲线和AUC得分,并绘制ROC曲线及随机猜测的虚线。
希望这个回答能够帮助你。
阅读全文