from sklearn.metrics import RocCurveDisplay from sklearn.model_selection import train_test_split from sklearn.metrics import confusion_matrix,accuracy_score from sklearn.preprocessing import StandardScaler from sklearn.linear_model import LogisticRegression from sklearn import tree from sklearn.decomposition import PCA import matplotlib.pyplot as plt from sklearn.tree import DecisionTreeClassifier data = pd.read_csv("C:\\Users\\sa'y\\Desktop\\framinghamData(1).csv") X = data[["sysBP", "diaBP", "age", "totChol", "BMI", "heartRate", "glucose"]] y = data[['TenYearCHD']] new_data = pd.concat([X, y], axis=1) print(new_data.head()) scaler = StandardScaler() X_scaled = scaler.fit_transform(X) print(X_scaled) corr = new_data.corr(method='pearson') sns.heatmap(corr, annot=True, cmap='coolwarm') plt.show() pca = PCA(n_components=7) newX = pca.fit_transform(X) x_data = ['PC1','PC2','PC3','PC4','PC5','PC6','PC7'] y_data = np.around(pca.explained_variance_ratio_, 2) plt.bar(x=x_data, height=y_data,color='steelblue', alpha=0.8) plt.show() 在上述代码基础上,请给出下一步的代码,要求是: 计算所有主成分之间的皮尔逊相关系数,并用热图Heatmap的形式展示出来
时间: 2023-06-05 11:04:53 浏览: 86
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns
# 计算所有主成分之间的皮尔逊相关系数
corr_pca = np.corrcoef(newX.T)
# Heatmap展示相关系数
sns.set(font_scale=1)
sns.heatmap(corr_pca, cbar=True, annot=True, square=True, fmt='.2f', annot_kws={'size': 10}, yticklabels=x_data, xticklabels=x_data)
plt.savefig('corr_pca_heatmap.png')
plt.show()
相关问题
解释这段代码:from sklearn.metrics import confusion_matrix from sklearn.metrics import accuracy_score,precision_score, recall_score,f1_score,SCORERS from sklearn.ensemble import RandomForestClassifier from sklearn.model_selection import GridSearchCV from sklearn.model_selection import train_test_split from timeit import default_timer as timer from sklearn.preprocessing import MinMaxScaler
这段代码是导入了一些常用的机器学习库和函数,具体解释如下:
1. `from sklearn.metrics import confusion_matrix`: 导入混淆矩阵函数,用于评估分类模型的性能。
2. `from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, SCORERS`: 导入准确率、精确率、召回率、F1值等常用评估指标。
3. `from sklearn.ensemble import RandomForestClassifier`: 导入随机森林分类器,一种常用的集成学习方法。
4. `from sklearn.model_selection import GridSearchCV`: 导入网格搜索函数,用于在给定的参数空间中搜索最优模型参数。
5. `from sklearn.model_selection import train_test_split`: 导入数据集划分函数,用于将数据集划分为训练集和测试集。
6. `from timeit import default_timer as timer`: 导入计时函数,用于计算程序运行时间。
7. `from sklearn.preprocessing import MinMaxScaler`: 导入MinMaxScaler函数,用于将数据归一化到指定的范围内。
解释一下这段代码from sklearn.metrics import accuracy_score, confusion_matrix
这段代码导入了 scikit-learn 中的 metrics 模块,其中包括了评估分类模型性能的一些函数。其中,accuracy_score 函数可以计算分类准确率(分类正确率),confusion_matrix 函数可以计算分类混淆矩阵(confusion matrix)。
示例代码如下:
```python
from sklearn.metrics import accuracy_score, confusion_matrix
y_true = [0, 0, 1, 1, 1]
y_pred = [1, 0, 1, 1, 0]
# 计算准确率
accuracy = accuracy_score(y_true, y_pred)
print('Accuracy:', accuracy)
# 计算混淆矩阵
conf_mat = confusion_matrix(y_true, y_pred)
print('Confusion Matrix:\n', conf_mat)
```
输出结果如下:
```
Accuracy: 0.6
Confusion Matrix:
[[1 1]
[1 2]]
```
其中,准确率为 0.6,表示模型将 5 个样本中的 3 个分类正确;混淆矩阵为:
```
[[1 1]
[1 2]]
```
表示真实标签为 0 的有 2 个,其中一个被预测为 1,一个被正确预测为 0;真实标签为 1 的有 3 个,其中一个被错误预测为 0,两个被正确分类为 1。