Python ROC曲线教程：二分类与多分类实现详解

版权申诉

5星 · 超过95%的资源 35 浏览量更新于2024-09-11 5 收藏 114KB PDF 举报

本篇教程详细讲解了如何在Python中实现二分类和多分类问题下的ROC曲线，它是评估分类器性能的重要工具，尤其是在不平衡数据集上。首先，我们来理解几个关键指标： 1. **Precision (精确率)**：表示预测为正类的样本中真正为正类的比例，高精度意味着模型正确识别正例的能力强，但可能牺牲召回率。 2. **Recall (召回率)**：衡量模型找出所有正例的能力，即原本为正类的样本被正确识别的比例，高的召回率意味着模型能够找到大部分正例，但可能会有较多的假阳（误报）。 3. **F1-Score**：综合考虑精确率和召回率的平衡度量，F1值越高，表示模型在这两个方面的表现越好，当F1=1时，意味着精确率和召回率均达到最佳状态。 4. **Accuracy (准确率)**：简单来说，就是分类正确的样本数占总样本数的比例，但在类别分布不均匀的情况下，准确率可能不是最合适的评价指标。 5. **False Positive Rate (FPR)**：原本为负类的样本被错误地预测为正类的比例，它与召回率成反比，越低的FPR表示模型误报的情况越少。 6. **True Positive Rate (TPR或Sensitivity)**：又称为召回率，即真正为正类的样本被正确识别的比例，目标是最大化TPR，减少漏报。在二分类问题中，通过`roc_curve`函数可以计算出每个阈值下对应的FPR和TPR，然后绘制ROC曲线。AUC (Area Under the Curve) 是ROC曲线下的面积，AUC值越接近1，模型性能越好。通过调整模型的阈值，可以在精确率和召回率之间找到一个最优平衡点。对于多分类问题，虽然每个类别有自己的ROC曲线，但通常我们使用混淆矩阵（Confusion Matrix）来汇总所有类别的性能，并计算总体的ROC曲线。这可以通过调整预测概率阈值，针对每个类别计算TP、FP、FN和TN，然后用这些值构建多分类的ROC曲线。以下是一段示例代码，展示了如何在Keras中使用预训练模型进行二分类任务，并计算并绘制ROC曲线： ```python # ... (其他导入和数据加载) # 模型训练和评估 X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2) model = load_model('pretrained_model.h5') # 加载预训练模型 model.compile(optimizer=Adam(), loss='binary_crossentropy', metrics=['accuracy']) # 预测并计算混淆矩阵 y_pred_prob = model.predict(X_test) y_pred = (y_pred_prob > threshold).astype(int) conf_matrix = confusion_matrix(Y_test, y_pred) # 计算ROC曲线和AUC fpr, tpr, _ = roc_curve(Y_test, y_pred_prob[:, 1]) # 对于二分类问题，一般取第2个类别 roc_auc = auc(fpr, tpr) # 绘制ROC曲线 plt.plot(fpr, tpr, 'b', label='AUC = %0.2f' % roc_auc) plt.plot([0, 1], [0, 1], 'r--') plt.xlim([0.0, 1.0]) plt.ylim([0.0, 1.05]) plt.xlabel('False Positive Rate') plt.ylabel('True Positive Rate') plt.title('Receiver Operating Characteristic (ROC) Curve') plt.legend(loc="lower right") plt.show() # ... (继续计算多分类的混淆矩阵和ROC曲线，如需) ``` 总结来说，这篇教程提供了实现二分类和多分类问题的ROC曲线分析方法，涵盖了从数据处理到模型评估的关键步骤，帮助读者理解和优化机器学习模型在实际场景中的性能。

python实现二分类和多分类的实现二分类和多分类的ROC曲线教程曲线教程

主要介绍了python实现二分类和多分类的ROC曲线教程，具有很好的参考价值，希望对大家有所帮助。一起跟

随小编过来看看吧

基本概念基本概念

precision：预测为对的当中，原本为对的比例（越大越好，1为理想状态）

recall：原本为对的当中，预测为对的比例（越大越好，1为理想状态）

F-measure：F度量是对准确率和召回率做一个权衡（越大越好，1为理想状态，此时precision为1，recall为1）

accuracy：预测对的（包括原本是对预测为对，原本是错的预测为错两种情形）占整个的比例（越大越好，1为理想状态）

fp rate：原本是错的预测为对的比例（越小越好，0为理想状态）

tp rate：原本是对的预测为对的比例（越大越好，1为理想状态）

ROC曲线通常在Y轴上具有真阳性率，在X轴上具有假阳性率。这意味着图的左上角是“理想”点 - 误报率为零，真正的正率为

1。这不太现实，但它确实意味着曲线下面积（AUC）通常更好。

二分类问题：二分类问题：ROC曲线曲线

from __future__ import absolute_import

from __future__ import division

from __future__ import print_function

import time

start_time = time.time()

import matplotlib.pyplot as plt

from sklearn.metrics import roc_curve

from sklearn.metrics import auc

import numpy as np

from sklearn.model_selection import train_test_split

from sklearn.metrics import recall_score,accuracy_score

from sklearn.metrics import precision_score,f1_score

from keras.optimizers import Adam,SGD,sgd

from keras.models import load_model

print('读取数据')

X_train = np.load('x_train-rotate_2.npy')

Y_train = np.load('y_train-rotate_2.npy')

print(X_train.shape)

print(Y_train.shape)

print('获取测试数据和验证数据')

X_train, X_valid, Y_train, Y_valid = train_test_split(X_train, Y_train, test_size=0.1, random_state=666)

Y_train = np.asarray(Y_train,np.uint8)

Y_valid = np.asarray(Y_valid,np.uint8)

X_valid = np.array(X_valid, np.float32) / 255.

print('获取模型')

model = load_model('./model/InceptionV3_model.h5')

opt = Adam(lr=1e-4)

model.compile(optimizer=opt, loss='binary_crossentropy')

print("Predicting")

Y_pred = model.predict(X_valid)

Y_pred = [np.argmax(y) for y in Y_pred] # 取出y中元素最大值所对应的索引

Y_valid = [np.argmax(y) for y in Y_valid]

# micro：多分类　　

# weighted：不均衡数量的类来说，计算二分类metrics的平均

# macro：计算二分类metrics的均值，为每个类给出相同权重的分值。

precision = precision_score(Y_valid, Y_pred, average='weighted')

recall = recall_score(Y_valid, Y_pred, average='weighted')

f1_score = f1_score(Y_valid, Y_pred, average='weighted')

accuracy_score = accuracy_score(Y_valid, Y_pred)

print("Precision_score:",precision)

print("Recall_score:",recall)

print("F1_score:",f1_score)

print("Accuracy_score:",accuracy_score)

# 二分类　ＲＯＣ曲线

# roc_curve:真正率（True Positive Rate , TPR）或灵敏度（sensitivity）

# 横坐标：假正率（False Positive Rate , FPR）

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38723559

粉丝: 1
资源: 961

Python ROC曲线教程：二分类与多分类实现详解

python基于tensorflow的二分类的实现方法（注释超详细！）

纯python3.5代码实现逻辑回归的二分类（附数据）

SVM 图片二分类

基于python实现ROC曲线绘制广场解析

Python实现莺尾花分类的ROC曲线绘制教程

Python实现ROC曲线代码解析与应用

python实现多分类roc曲线绘制

基于python实现ROC曲线绘制（二分类和多分类）

python绘制二分类roc曲线

python绘制多分类的ROC曲线

最新资源