神经均值差异：用于高效的离群检测的新方法

147 浏览量更新于2023-10-26 收藏 12.47MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

7.5ms25.7ms192170用于高效的离群检测的神经均值差异0Xin Dong 1，Junfeng Guo 2，Ang Li 23，Wei-Te Ting 1，Cong Liu 2，H.T. Kung 101 哈佛大学，2 UT Dallas，3 Google DeepMind0xindong@g.harvard.edu0摘要0已经提出了各种方法来通过增强模型、输入示例、训练集和优化目标来进行离群分布（OOD）检测。与现有工作不同，我们有一个简单的假设，即标准的现成模型可能已经包含了关于训练集分布的足够信息，可以用于可靠的OOD检测。我们对验证这个假设的实证研究发现，通过测量模型激活在OOD和IDmini-batches上的均值，令人惊讶地发现OODmini-batches的激活均值与训练数据的激活均值有明显的偏差。此外，可以高效地计算训练数据的激活均值，或者从批归一化层中检索出来作为“免费午餐”。基于这个观察，我们提出了一种称为神经均值差异（NMD）的新指标，用于比较输入示例和训练数据的神经均值。利用NMD的简单性，我们提出了一种高效的OOD检测器，通过标准的前向传播和轻量级分类器计算神经均值。大量实验证明，NMD在多个数据集和模型架构上的检测准确性和计算成本方面优于最先进的OOD方法。01. 引言0深度神经网络（DNN）在许多计算机视觉任务上取得了成功。然而，大多数深度学习方法都基于一个假设，即数据是独立同分布的（i.i.d.），即训练和测试数据来自相同的潜在分布。虽然几乎不可能策划一个涵盖现实世界中所有不同场景的数据集，但在实践中，i.i.d.假设是不正确的，测试数据中很可能出现离群分布（OOD）示例。因此，在实际应用中部署深度神经网络时，检测OOD示例的能力变得至关重要。已经开发了许多方法来解决OOD问题，包括增强标准DNN架构[14, 17, 26, 33, 48, 73,83]和使用增强训练集进行DNN微调[15, 45, 50, 58,61]。不幸的是，这些方法往往在计算和数据处理方面都带来了显著的开销。最近的研究在标准训练集上执行核密度估计，将传入示例的密度的负值解释为离群得分[22, 31, 44,63]。文献中研究了非参数和参数核。然而，它们在性能、对大批量的依赖性和计算效率方面存在局限性。与大多数以前的工作不同，我们认为现成的模型本身应该包含关于训练数据分布的足够信息。因此，我们提出了一个简单的研究（图3），通过观察模型激活在OOD和ID输入批次上的均值。结果显示，OODmini-batches的激活均值与训练数据的激活均值一致且明显偏离。受到这一观察的启发，我们提出了一个问题：OOD检测是否可以像计算激活的算术平均值那样简单和高效，而无需微调？我们提出了一种称为神经均值差异（NMD）的新指标，用于比较输入示例和训练数据的神经均值。所提出的NMD指标可以高效地计算，或者从批归一化层中检索出来作为“免费午餐”。0我们的0GOOD0ACET0ODIN0GRAM0OE0Energy-FT0G-ODIN0Maha0推理延迟0我们的Maha0需要微调0图1.使用CIFAR-10对比CIFAR-100（OOD）检测的训练和推理时间。我们的NMD-MLP在AUROC和训练时间方面都表现出优异的性能。更多细节请参见第3.3节、第5.6节和第4图。0例如，增强标准DNN架构[14, 17, 26, 33, 48, 73,83]和使用增强训练集进行DNN微调[15, 45, 50, 58,61]的示例。不幸的是，这些方法往往在计算和数据处理方面都带来了显著的开销。最近的研究在标准训练集上执行核密度估计，将传入示例的密度的负值解释为离群得分[22,31, 44,63]。文献中研究了非参数和参数核。然而，它们在性能、对大批量的依赖性和计算效率方面存在局限性。与大多数以前的工作不同，我们认为现成的模型本身应该包含关于训练数据分布的足够信息。因此，我们提出了一个简单的研究（图3），通过观察模型激活在OOD和ID输入批次上的均值。结果显示，OODmini-batches的激活均值与训练数据的激活均值一致且明显偏离。受到这一观察的启发，我们提出了一个问题：OOD检测是否可以像计算激活的算术平均值那样简单和高效，而无需微调？我们提出了一种称为神经均值差异（NMD）的新指标，用于比较输入示例和训练数据的神经均值。所提出的NMD指标可以高效地计算，或者从批归一化层中检索出来作为“免费午餐”。BN...NMDConv...IDOOD.........RunningAverageConvBN...Batch Size=4Batch Size=2Batch Size=1192180可以从模型的激活中高效计算出NMD；只需要前向传递。此外，可以免费从批归一化层[43]中获得训练数据的神经均值。我们发现这个NMD指标在OOD检测方面的性能在准确性和效率方面都优于其他方法（图1）。从理论上讲，我们进一步将上述观察结果和NMD的形式化与积分概率度量（IPMs）联系起来。IPMs是一类通用的分布距离度量，通过核将两组示例投影到一个新空间，并使用它们投影的均值差异作为分布距离。过去已经研究了非参数和深度神经核[31，44，63]。我们工作的关键发现是，与其定义一个单独的核函数，现成的DNN本身就是一种高效而有效的用于OOD检测的核。这一发现带来了我们方法的几个优势，总结如下：01.可访问性：由于现成的DNN可以直接使用，我们的NMD距离度量不需要数据和计算密集型的核优化、微调或超参数搜索。02.可扩展性：每组神经元（例如卷积层中的每个通道）被视为一个独特的核，可以并行处理数千个核。它们来自DNN的不同深度，互补地捕捉多级语义，从而提高了区分能力。03.简单性。计算NMD度量结果出人意料地简单，就像计算DNN的激活均值一样。它可以通过对训练数据进行前向传递进行离线计算。有趣的是，如果模型包含批归一化（BN）层，则可以直接从BN中近似得到神经均值，就像是一个“免费午餐”。0我们发现NMD的绝对值能够可靠地区分ID和OOD批次，即使批次大小降低到4，比之前的统计方法[13，27，30，31，44]小一个数量级。为了进一步提高检测效果，我们引入了一个轻量级的OOD检测器（实例化为逻辑回归或多层感知机），它以神经均值作为输入生成检测输出。该检测器能够考虑NMD向量中元素的敏感性和相关性，并在批次大小变为1时实现最先进的检测准确性，即单个示例的OOD检测。我们的方法的整个流程如图2和算法1所示。我们在各种数据集、OOD类型（远OOD和近OOD）、预训练类型（监督和自监督[34]）以及模型架构（简单ConvNet[44]、ResNet[35]、VGG[80]和0检测器0在标准训练集上预训练0输入神经0平均0检索0逐元素减法0均值0：我们使用多层来获取NMD。0图2.基于NMD的OOD检测流程。通过计算输入示例的通道均值与批归一化（BN）层中相应的运行平均值之间的差异来计算NMD向量。然后将NMD向量传递给轻量级分类器（例如LR或MLP）。请注意，计算NMD不需要BN。0100批次0CIFAR（ID）SVHN（OOD）0得分0100批次 100批次0图3.一个概念验证示例，使用在CIFAR-10（ID）上预训练的现成ResNet-34。我们首先计算每个小批量的NMD（见图2）。然后，我们将每个小批量中NMD向量中元素的幅度取平均作为分数（y轴），称为Ours-Avg。在没有微调的情况下，Ours-Avg能够可靠地区分ID和OOD数据。然而，未经训练的ResNet-34无法做到这一点，如附录所示。0Vision Transformer [ 19]）。在这些设置中，NMD在统计方法和其他最先进的方法中始终表现出色。我们进一步评估了NMD在各种数据情况下的鲁棒性和泛化性，包括少样本ID和OOD示例，零样本OOD示例以及用于未见OOD的迁移学习。此外，我们还测量了我们方法的效率，结果显示NMD检测器的训练成本比现有方法快几个数量级，而我们的整体推理延迟接近标准前向传递。02. 初步02.1. 基于分布外（OOD）的检测0假设某人在训练集D tr = { s 1 , . . . , s |D tr |}上训练了一个模型，该训练集来自于一个潜在分布P。给定一个来自未知分布Q的输入示例批次I = { x 1 , . . . , x |I|}，OOD检测的目标是区分I是否来自P，类似于衡量Q与P的偏离程度。IPMF(Q, P) = supϕ∈F(Ex∼Q[ϕ(x)] − Es∼P[ϕ(s)]) ,(1)supϕ∈F�1|I||I|�i=1ϕ(xi) −1|Dtr||Dtr|�j=1ϕ(sj)�.(2)NMDlc(I) =1|I| · d2|I|�i=1d�m=1d�n=1f lc(xi)m,n(3)−1|Dtr| · d2|Dtr|�j=1d�m=1d�n=1f lc(sj)m,n(4)= µ[f lc(I)] − µ[f lc(Dtr)] ,(5)NMD( ) = NMD1, NMD1, . . . , NMDl , NMDl , . . . , NMDL, NMDL, . . .1921902.2. 积分概率度量0积分概率度量（IPMs）[ 64]是一族概率距离度量，定义如下：0其中ϕ(∙)表示证明函数。IPMs使用ϕ将两个分布P和Q的示例投影到一个新空间中，然后比较两个投影集的均值。通常，我们不知道确切的分布公式，因此将公式（1）作为经验估计：0如果I是一个分布外批次，我们期望公式（2）的值较大；否则，它应该相对较小。IPM是一个通用框架，它依赖于选择适当的证明函数类F。尽管基于IPM的方法具有理论保证，但它们也有一定的局限性：（1）它们可能无法处理高维数据，如图像[ 46 ]或捕捉语义信息[ 13 , 57]。（2）它们通常依赖于假设检验，这需要足够大的|I|，|Dtr|（例如50+）和大量的计算迭代（例如1000+）来处理一个批次[ 27 , 30 , 44 , 70 ]。03. 我们的方法0我们方法的概述如图2所示。我们的关键思想是，不需要构建额外的专门的证明函数，可以使用在训练数据D tr上预训练的现成模型来实例化证明函数。这个证明函数导致了提出的度量方法，神经均值差异（NMD），它评估来自现成模型的神经激活的统计信息。03.1. 神经均值差异0公式（2）中的最大值是在证明函数ϕ(∙)上取的，这意味着神经网络ϕ ω(∙)被优化为最大化Q和P之间期望的差异[ 11 , 53, 57]。这种优化导致了高计算成本。相反，我们提出在OOD检测的上下文中放宽最大值的要求，做出一个直观的假设：只要一个函数能够区分投影空间中来自内部和外部分布的示例的统计信息（即均值），这个函数就可以成为一个合格的证明函数。有趣的是，我们发现在内部分布训练集上预训练的现成模型f(∙)符合这个条件。将现成模型的第l层中的某个通道c作为函数flc：R|I|× 3 × d′ × d′ → R|I|× 1 × d ×d，其中d′和d是输入图像的空间尺寸和0分别是激活图和目标域训练集的激活图。我们使用 f l c定义了一种与模型无关的度量标准，称为神经均值差异（NMD）。0其中第一个求和（� |I| i =1 或 � |D tr | i=1）是在示例上进行的，最后两个求和（� d m =1 � d n=1）是在该通道的所有空间位置（m，n）上进行的。我们在激活图的空间位置上求和，因为神经网络的每个卷积核可以被视为IPM理论中的见证函数的实现。因此，在通道内（即卷积核的输出）的空间位置上取平均值是对IPM的忠实实现。每个空间位置对应于输入图像的相应补丁，称为感受野。因此，在空间位置上进行平均可以被视为在使用 f l c投影后对图像补丁进行平均。这隐含地增加了输入批次的大小，并使我们的方法能够在与基于先前IPM方法相比极小的批次大小|I|（即使对于单个输入图像|I|=1）下生存。0多层NMD用于多尺度OOD检测。为了进一步提高性能，我们考虑测量并组合来自离线模型的所有通道的NMD。通过这样做，我们可以得到给定输入批次I的NMD向量，0(6)这是一个C维向量，其中C是离线模型中的通道总数。多层NMD具有三个主要优势：1. 每个神经均值差异NMD l c与唯一的见证函数f l c相关联。我们的方法利用了多个见证函数的组合，比基于单个IPM的先前方法具有更丰富的容量，这在我们的大量实验证实了。02. 不同层的NMD l c可能具有不同的补丁大小，因为它们的感受野随着层的深度线性增加。将所有层的NMD组合起来可以实现多尺度OOD检测，捕捉低级和高级语义（见第5.7节）。03.通过使用多个通道，NMD不会引入额外的计算开销，因为它们可以通过模型的单次前向传递获得。192200批归一化中的“免费午餐”。NMD计算激活统计量的方式与批归一化（BN）相同。与通过遍历整个训练数据计算µ [ fl c ( D tr )]的方式不同，可以直接使用BN的运行平均值。由于批归一化能够稳定训练并提高模型的泛化能力，它是现代DNN中不可或缺的组件。BN使用每个通道的统计量对输入进行归一化。具体而言，在给定通道中，BN从输入中减去激活均值µ，然后将其除以标准差σ。在训练过程中，µ和σ^2是当前小批量的经验每通道均值µ batch和方差σ^2batch。在测试过程中，µ和σ^2不是从小批量计算得到的，而是从训练集估计得到的，并用于归一化。Ioffe等人提出可以使用运行平均值来高效地估计期望统计量。0µ ← λµ + (1 - λ)µ batch, σ^2 ← λσ^2 + (1 - λ)σ^2 batch, (7)0其中λ的典型值为0.99（这是大多数深度学习库中的标准实现方式[2,68]）。回到我们的方法，我们直接使用存储在BN中的运行平均均值µ来近似µ[f l c (Dtr)]，而不是使用公式（4）手动计算。0µ[f l c (D tr)] ≈ µℓ c. (8)0我们在实验中采用了这个近似方法，并验证它对OOD检测的有效性。此外，我们还验证了对于不包含BN的模型（例如VGG[80]和Transformer[19]），公式（4）的有效性。03.2. 概念验证0为了验证我们的直觉，我们使用CIFAR-10[47]实例化内部分布数据，并使用SVHN[67]实例化外部分布数据。使用标准训练方法在CIFAR-10上训练了一个ResNet-34[35]作为现成的模型f(∙)。给定一个小批量I，通过公式（5），（6）和（8）计算其NMD向量。我们提出了一种直观的基准方法称为Ours-Avg，它将NMD向量中元素的幅度平均值作为OOD检测的置信度得分。我们从CIFAR-10（绿色点）和SVHN（红色点）的测试集中随机抽取了100个小批量，并在图3中可视化了每个批次的得分。图3中的观察结果验证了我们的预期：OOD数据的NMD平均值大于内部分布数据。在没有任何训练、模型微调或超参数调整的情况下，Ours-Avg在批量大小|I|=4时达到了令人印象深刻的性能，99.9%的AUROC。相比之下，其他基于IPM的方法通常需要更大的批量大小[27, 30, 70]。0算法1：基于NMD的OOD检测流程0输入：（1）一个输入示例x，（2）一个现成的预训练分类器f(∙)，以及（3）一个OOD检测器（g LR或g MLP）。0阶段1：生成特征均值差异向量0对于f中的每个通道，使用现成的模型f(x)进行前向传播0通过公式（5），（6）和（8）计算NMD l c ( x )0对于每个通道中的所有NMD l c ( x)，将它们连接起来得到NMD(x)0阶段2：使用生成的NMD向量NMD(x)进行检测0如果进行训练0使用配对的方式训练OOD检测器g(∙)：{(NMD(x ID), 0), ..., (NMD(x OOD), 1)}0否则如果进行测试0使用OOD检测器g(NMD(x))获取检测结果0结束如果03.3. 敏感性感知的NMD检测器0为了进一步提高OOD检测的辨别能力，我们提出了学习参数化检测器的方法，该检测器以NMD向量作为输入，而不仅仅是对其进行平均。通过这样做，即使批量大小|I|降至1（即单个输入示例），检测性能也得到提升。先前的文献[9,18,32]观察到深度神经网络中的通道之间存在相关性并且具有不同的重要性。为了利用这一观察结果，我们提出了训练一个检测器g(∙)，该检测器以NMD向量NMD(x)作为输入，并预测当前示例是否为OOD。在训练过程中，这些检测器通过NMD表示和分布指示符进行优化，例如对于内部分布示例，使用(NMD(x ID),0)，对于外部分布示例，使用(NMD(x OOD),1)。这些OOD检测器简单、轻量且在训练和推断过程中都非常高效。我们将在实验部分展示，该检测器可以通过少量示例进行学习，并且对未见过的OOD类型具有很高的泛化能力。即使没有访问OOD示例，该检测器仍然可以通过随机排列内部分布示例的像素来实现卓越的性能[73]。虽然检测器g(∙)可以使用任何分类方法来实现，但我们在实验中比较了两种轻量级OOD检测器：逻辑回归gLR（LR）和多层感知机gMLP（MLP）。我们的方法的整个流程可以在算法1中找到。04. 实验设置0现成模型。NMD是与模型无关的，我们在多种架构上进行评估，包括4层ConvNet [44,71]、ResNet-34 [35]、自监督ResNet-34 [34]、WideResNet [91]、DenseNet-100 [40]、VGG[80]和Vision Transformer[19]。所有模型都是使用其原始训练配方进行充分训练，并在实验过程中冻结（即没有微调）。19221034 [34]，WideResNet [91]，DenseNet-100 [40]，VGG[80]和Vision Transformer[19]。所有模型都是使用其原始训练配方进行充分训练，并在实验过程中冻结（即没有微调）。0基准数据集。我们在各种数据集上进行比较研究：CIFAR-10、CIFAR-100、SVHN、裁剪的ImageNet、裁剪的LSUN、iSUN和Texture，遵循OOD文献[51, 55, 58, 73,78]。不同的内部和外部分布数据集的组合会导致不同的困难程度。OOD检测问题通常被分为近似OOD和远离OOD[25, 72,84]。近似OOD意味着两个数据分布彼此接近。一个例子是将CIFAR-10作为内部分布，CIFAR-100作为OOD。这是因为这两个数据集都来自同一个tinyimagenet数据集[69]，它们的标签都是具有相似语义的日常物体。相比之下，远离OOD的一个例子可能是将CIFAR-10作为内部分布，SVHN作为OOD，因为SVHN只包含房号图像，而CIFAR-10包含具有丰富信息的自然图像。近似OOD通常比远离OOD更难[73, 78,92]。为了证明我们方法的有效性，我们在近似OOD和远离OOD任务中评估NMD方法。0协议。我们考虑4种数据访问情况，以模拟现实世界的OOD检测场景。1.完全访问：传统的OOD检测方法假设可以访问ID和OOD数据进行OOD检测器的训练和超参数调整。02.少样本：由于隐私问题，数据所有者可能只发布少量的ID和OOD示例用于OOD检测器的训练。在我们的实验中，我们提出了一个极端的场景，只有25个ID和25个OOD示例可供训练。03. 零样本：最近的研究[39, 58, 78,90]也使用仅ID示例学习OOD检测器，而不依赖于OOD示例。04.转移：为了评估不同方法的可转移性，我们另外提出在一种OOD数据集上训练检测器，并在不同的未见过的OOD数据集上评估它们的性能。0评估指标。与文献[51, 55, 58, 73,78]一致，我们使用三个评估指标：（1）在95%真阳性率下的真阴性率（TNR95），（2）接收器操作特征曲线下的面积（AUROC），以及（3）检测准确率（ACC），该指标测量所有可能阈值下的最大检测准确率。0基准方法。我们将我们的方法与几种现有方法进行比较，这些方法属于不同的类别。1.统计方法：这些方法与我们的工作最相关。如Sheng等人[44]总结的那样，对于一个测试样例x，这些方法使用每个内部样本的核评估的负和来计算OOD分数。0模型 ID OOD 方法 AUROC0ConvNet（4层）CIFAR-10 SVHN0DK 82.4 CNTK71.3 SCNTK 84.9我们的-LR 99.90ConvNet（4层）SVHN CIFAR-100DK 21.4 CNTK51.9 SCNTK 80.3我们的-LR 99.80表1.统计异常检测方法的AUROC比较。我们将我们的方法与基于深度核的方法（DK）[27,57]、卷积神经切线核（CNTK）[6]、平移不变卷积神经切线核（SCNTK）[44]进行比较。与[44]的设置一致，我们使用一个四层卷积神经网络作为特征提取的分类器。更多细节可以在附录中找到。0例如S x ′，使得SCORE(x) = -∑|S|i=1 κ(x,x'i)。不同的核κ选择会导致不同的方法，包括深度核（DK [27, 57]），卷积神经切线核（CNTK[6]）和平移不变卷积神经切线核（SCNTK [44]）。02.其他基线：我们还将我们的方法与其他最先进的方法进行比较，如ODIN [55]，马氏距离[51]，带分类器微调的OE[38]和带分类器微调的Energy[58]。它们需要模型微调、超参数调整、多轮前向推断，而NMD不依赖于上述任何一种。05.结果0我们在本节中展示了我们的结果，从经验上证明了基于NMD的OOD检测的简单性、有效性、高效性和通用性。所有结果都是针对单个示例检测（即批量大小|I = 1|）获得的。05.1.与统计基线的比较0我们首先将我们的方法与基于统计测试的最相关方法进行比较，即DK [27, 57]，CNTK [6]和SCNTK[44]。这些方法对于每个测试示例都需要在内分布数据子集S x ′上进行遍历，这可能是昂贵的。NMD不依赖于S x′，从而提高了效率。根据Sheng等人的设置[44]，所有比较的方法都采用四层卷积神经网络作为特征提取器。表1显示，我们的方法（使用逻辑回归检测，表示为'Ours-LR'）在OOD检测性能上取得了显著的改进（99.8+%AUROC）。该结果从经验上证明了使用来自同一预训练模型的不同尺度和语义级别的多个证据函数的价值。5.5. Generalizability across models and datasetsWe are interested in the transferability of the detec-tor across datasets. For each model, we use CIFAR-100as OOD dataset for training the detector and evaluate thetrained detector on unseen OOD datasets such as LSUN-C,SVHN, Texture, and ImageNet-C.As we elaborated in Sec. 3.1, one can either use run-ning average in BN to approximate µ[f lc(Dtr)] (Eq. (8)) ormanually compute it via Eq. (4) if the model has no BN lay-ers. So we also evaluates the generalizability of our methodacross different models.1. VGG models. VGG-19 consists of 16 convolution andReLU layers, followed by three fully-connected (FC)layers.It has no BN layers.We only use channelsfrom convolutional layers to compute NMD. Since noBN layer is present in this model, we traverse the in-distribution training set (i.e., CIFAR-10) for one epoch.2. Self-supervised models.We use MoCo [34] as theself-supervised learning method.After pre-training aResNet-34 model with MoCo on CIFAR-10, we freezeit and use it to compute NMD.3. Vision Transformers.Different from CNNs, a VisionTransformer (ViT) [19] is composed of a stack of stan-dard multi-head self-attention and position-wise fully-connected layers.ViT splits an image into p non-overlapped patches and provides the sequence of embed-dings of these patches as an input to a Transformer. ViTadopts layer normalization (LN) [8] to normalize eachinput example’s activation Zl ∈ Rp×d. Imitating convo-lution neural networks, we compute ViT’s feature meanfor an input example x with µl (x) = 1p�pi=1 Zli ∈ ℜd,and use it to compute NMD metric.Tab. 2 indicates that NMD generalizes well for vari-ous models and datasets. Interestingly, we ﬁnd that self-supervised ResNet-34 has the best averaged detection per-formance across 4 unseen OOD datasets, suggesting thehigh transferability of its learnt representations [16, 23, 34].5.6. Training and inference efﬁciencyIn this section, we compare the training and inferencecosts of the proposed Ours-MLP with baselines in Fig. 1.We measure the training and inference time on a machinewith one NVIDIA GPU 1080 Ti and a Intel(R) Xeon(R)CPU E5-2650 v4 @ 2.20GHz.Training cost.Since the detectors (i.e., LR and MLP)we used are lightweight, the training process can be donequickly (within 60 epochs with CIFAR-10 (ID) and CIFAR-100 (OOD) training datasets in Fig. 1). In addition, differ-ent from existing methods, NMD does not have sensitivehyperparameters and thus does not have to repeat trainingprocess for multiple times to search the hyperparameters.Inference cost. As illustrated in Algorithm 1, we only haveto run a single forward pass with the pre-trained model togenerate the NMD vector. The generated NMD vector willbe then processed by a lightweight detector (e.g., Logisticregress or three-layer MLP as detailed in Sec. 3.3). In con-1922205.2.与其他基线的比较0我们在使用在内分布数据集CIFAR-10上训练的ResNet的一组外分布数据集上评估我们的方法。在这个实验中，我们假设内分布和外分布数据集都可用于训练。在我们的NMD方法中，预训练的ResNet-34被冻结，而其他方法可能会进一步微调它以最大化测试能力。此外，我们的NMD是无超参数的，而其他方法可能有敏感的超参数需要调整（例如，[55]中的温度，[51]中的扰动和[58]中的边距）。如图4所示，尽管方法简单，但我们的方法在各个数据集上始终优于其他方法，特别是在接近外分布的数据集CIFAR-100上。更多实验结果可以在附录中找到。05.3.仅使用内分布示例进行学习0我们进一步将我们的方法与不依赖于任何给定的外分布数据集进行训练的方法进行比较。其中，G-ODIN [39]和1D[90]需要在内分布数据集上进行微调。由于没有外分布示例可访问，我们通过随机排列内分布示例的像素来制作人工外分布示例，并使用制作的外分布示例来训练我们的检测器。在真实的外分布数据集上评估在人工外分布示例上训练的检测器。图5显示，我们的方法在没有真实外分布数据的情况下表现优于最先进的方法。该结果还表明，即使人工外分布示例是不真实的，它们在引导外分布检测器的决策边界方面是有帮助的。05.4.少样本外分布训练0我们在只有非常有限数量的内分布和外分布示例可用于训练的情况下评估我们的方法。图6比较了在训练过程中只有25个内分布示例和25个外分布示例时不同方法的表现。基线方法'Gram'使用50个内分布示例作为例外，因为它不依赖于外分布示例。由于50个示例对于'Energy'来说太少以至于无法进行微调，我们报告了它在没有微调的情况下的性能作为参考。在这种少样本情况下，我们的方法优于所有其他方法。以前的研究通常需要足够的数据来调整超参数或模型。相比之下，NMD是无超参数的，因此可以在少量示例下学习得很好。然而，我们观察到MLP检测器略微过拟合，这表明在少样本情况下应考虑低容量模型，如LR。969810096.799.198.498.899.999.9SVHN939610093.296.799.299.599.999.9LSUN-C939710093.198.698.999.699.999.9ImageNet-C949710094.199.598.299.399.999.9iSUN949710094.698.497.998.699.999.9Texture76869677.277.486.493.394.395.4CIFAR-100ODINMahaOEEnergy-FTOurs-LROurs-MLPFigure 4. AUROC comparison with OOD methods requiring both in- and out-of- distribution data for detector training, classiﬁer ﬁne-tuning or hyper-parameter search. We compare our method with ODIN [55], Maha [51], OE with ﬁne-tuning [38], and Energy withﬁne-tuning [58] on ResNet-34, using CIFAR-10 as in-distribution. The Energy method is ﬁnetuned using each of the OOD training sets.909510090.699.597.895.199.6SVHN93969998.097.898.892.998.8LSUN-C93969993.699.298.294.699.2ImageNet-C869310092.299.898.986.399.9iSUN85929985.597.595.091.198.9Texture79859087.179.085.587.290.1CIFAR-100192230Enery Gram G-ODIN 1D Ours-MLP0图5.当只有内部分布数据可访问时，检测方法的AUROC比较。我们将我们的方法与没有进行分类器微调的能量[58]、Gram[78]、G-ODIN[39]和1D[90]在ResNet-34上进行了比较，使用CIFAR-10作为内部分布数据集。0内部训练 OOD测试0ResNet-34 ResNet-34（自监督）VGG-19 ViT DenseNet0TPR 95%时的TNR ↑ / AUROC ↑ / ACC ↑0CIFAR-10 CIFAR-1000LSUN-C 95.8 / 99.2 / 95.6 99.1 / 99.8 / 98.1 96.4 / 99.3 / 95.7 94.0 / 98.7 / 94.6 90.6 / 98.3 / 93.6 SVHN96.4 / 99.2 / 95.9 99.9 / 99.9 / 99.9 99.9 / 99.9 / 99.1 99.8 / 99.9 / 99.2 95.8 / 99.2 / 95.4 纹理 91.7 / 98.5 /93.4 97.8 / 99.5 / 96.7 96.1 / 99.1 / 95.6 91.4 / 98.3 / 93.5 93.0 / 98.6 / 94.0 ImageNet-C 93.7 / 98.7 / 94.499.9 / 99.9 / 99.1 94.0 / 98.9 / 94.5 89.0 / 98.1 / 93.0 94.3 / 98.8 / 94.70表2.我们评估了我们的方法在不同模型上的泛化能力，包括使用标准softmax交叉熵损失训练的ResNet-34[35]，使用MoCo的自监督损失训练的ResNet-34[34]，VGG-19（无BN）[80]和VisualTransformer[19]。为了进一步验证在不同数据集上的泛化能力，我们使用CIFAR-100作为OOD数据集来训练我们的检测器，并在未见过的OOD数据集（包括LSUN-C、SVHN、纹理和ImageNet-C）上测试训练好的检测器。0相比之下，其他方法除了进行标准的前向传播（Baseline[37]和ACET[36]）外，还需要：（1）额外的前向和后向传播[39, 51, 55]；（2）计算复杂的属性（例如共现）[78, 90]。05.7.消融研究0用于OOD检测的层重要性。我们在图7中可视化了来自ResNet-34不同层的NMD的重要性。我们发现我们的方法利用了低级视觉属性（来自浅层）以及高级语义信息（来自深层），并

下载后可阅读完整内容，剩余1页未读，立即下载