理解机器学习：准确率陷阱与混淆矩阵详解

85 浏览量更新于2024-08-30 收藏 275KB PDF 举报

在机器学习基础的笔记2中，我们讨论了准确率作为衡量分类模型性能的局限性。虽然高准确率通常给人留下好印象，但在处理实际问题时，特别是在样本极度不平衡的情况下，如癌症检测，仅依赖准确率可能会导致误导。例如，当患病率极低时，一个简单的系统只需持续预测“无癌症”就能达到接近99.9%的准确率，但这并不意味着模型真正有效。准确率并未充分考虑误报和漏报的情况。误报（False Positive, FP）是指模型错误地预测了健康个体患有癌症，而漏报（False Negative, FN）则是指模型未能识别出实际患有癌症的人。这两种情况在医疗领域尤为关键，因为误报可能导致不必要的治疗和焦虑，而漏报则可能导致疾病的延误。为了更全面地评估模型性能，引入了混淆矩阵这一工具。混淆矩阵是一个二维表格，用于展示实际类别与预测类别的对比。矩阵中的四个元素——真阳性（True Positive, TP）、真阴性（True Negative, TN）、假阳性（False Positive, FP）和假阴性（False Negative, FN）分别对应了四种可能的结果组合。以癌症检测为例，当模型预测为1（癌症）和0（非癌症）时，混淆矩阵可以帮助我们计算精准率（Precision, TP / (TP + FP））和召回率（Recall, TP / (TP + FN）），这两个指标分别衡量了模型在预测为正例时的正确性和模型找出所有正例的能力。 Python中的实现如下： ```python import numpy as np def confusion_matrix(true_labels, predicted_labels): tp = np.sum((true_labels == 1) & (predicted_labels == 1)) tn = np.sum((true_labels == 0) & (predicted_labels == 0)) fp = np.sum((true_labels == 0) & (predicted_labels == 1)) fn = np.sum((true_labels == 1) & (predicted_labels == 0)) return np.array([[tn, fp], [fn, tp]]) # 示例用法 true_data = [0]*9978 + [1]*12 predicted_data = [0]*9978 + [1]*12 matrix = confusion_matrix(true_data, predicted_data) ``` 通过混淆矩阵，我们可以更深入地分析模型的表现，尤其是在关注精度和召回率时，这两个指标能提供比单一的准确率更为全面的评估，尤其是在处理不平衡数据集时。理解并运用混淆矩阵对于优化模型、避免误诊和漏诊至关重要。

机器学习基础（笔记机器学习基础（笔记2））

常见概念（常见概念（2））

准确率的不足和混淆矩阵：

准确对越高就能说明模型的分类性能越好吗？举个例子，现在我开发了一套癌症检测系统，只要输入你的一些基本健康信息，就能预测出你现

在是否患有癌症，并且分类的准确度为 0.999。这样的系统的预测性能好不好呢？

你可能会觉得，哇，这么高的准确度！这个系统肯定很牛逼！但是我们知道，一般年轻人患癌症的概率非常低，假设患癌症的概率为 0.001，

那么其实我这个癌症检测系统只要一直输出您没有患癌症，准确度也可能能够达到 0.999。

假如现在有一个人本身已经患有癌症，但是他自己不知道自己患有癌症。这个时候用我的癌症检测系统检测发现他没有得癌症，那很显然我这

个系统已经把他给坑了（耽误了治疗）。

看到这里您应该已经体会到了，一个分类模型如果光看准确度是不够的，尤其是对这种样本极度不平衡的情况（ 10000 条健康信息数据中，只

有 1 条的类别是患有癌症，其他的类别都是健康）。

混淆矩阵：

想进一步的考量分类模型的性能如何，可以使用其他的一些性能指标，例如精准率和召回率。但这些指标计算的基础是混淆矩阵。

继续以癌症检测系统为例，癌症检测系统的输出不是有癌症就是健康，这里为了方便，就用 1 表示患有癌症，0 表示健康。假设现在拿 10000

条数据来进行测试，其中有 9978 条数据的真实类别是 0，系统预测的类别也是 0，有 2 条数据的真实类别是 1 却预测成了 0，有 12 条数据的

真实类别是 0 但预测成了 1，有 8 条数据的真实类别是 1，预测结果也是 1。

如果我们把这些结果组成如下矩阵，则该矩阵就成为混淆矩阵。

混淆矩阵中每个格子所代表的的意义也很明显，意义如下：

如果将正确看成是 True，错误看成是 False， 0 看成是 Negtive， 1 看成是 Positive。然后将上表中的文字替换掉，混淆矩阵如下：

因此 TN 表示真实类别是 Negtive，预测结果也是 Negtive 的数量； FP 表示真实类别是 Negtive，预测结果是 Positive 的数量； FN 表示真实

类别是 Positive，预测结果是 Negtive 的数量；TP 表示真实类别是 Positive，预测结果也是 Positive 的数量。

很明显，当 FN 和 FP 都等于 0 时，模型的性能应该是最好的，因为模型并没有在预测的时候犯错误。

用python 实现二分类混淆矩阵：

import numpy as np

def confusion_matrix(y_true, y_predict):

'''

构建二分类的混淆矩阵，并将其返回

:param y_true: 真实类别，类型为ndarray

:param y_predict: 预测类别，类型为ndarray

:return: shape为(2, 2)的ndarray

'''

def TN(y_true, y_predict):

return np.sum((y_true == 0) & (y_predict == 0))

def FP(y_true, y_predict):

return np.sum((y_true == 0) & (y_predict == 1))

def FN(y_true, y_predict):

return np.sum((y_true == 1) & (y_predict == 0))

def TP(y_true, y_predict):

return np.sum((y_true == 1) & (y_predict == 1))

return np.array([

[TN(y_true, y_predict), FP(y_true, y_predict)],

[FN(y_true, y_predict), TP(y_true, y_predict)] ])

下载后可阅读完整内容，剩余5页未读，立即下载

weixin_38603259

粉丝: 5
资源: 922

理解机器学习：准确率陷阱与混淆矩阵详解

机器学习个人笔记完整版

西瓜书机器学习的学习笔记（十分详细）

机器学习基础笔记.md

机器学习基础笔记.zip

吴恩达机器学习基础笔记1

机器学习笔记1_机器学习基础

机器学习学习笔记

机器学习相关笔记,机器学习基础算法,公式概念,数据可视化.zip

学习笔记机器学习基础.zip

机器学习基础（笔记1）

最新资源