基于残差流的深度学习方法用于分布外检测

42 浏览量更新于2023-10-24 收藏 662KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

13994用于分布外检测的深层剩余流电气工程Technionzis@campus.technion.ac.il特拉维夫塔马尔电气工程avivt@technion.ac.il摘要神经网络在现实世界中的有效应用依赖于对分布外样本的熟练检测当代方法试图对训练数据中的特征激活的分布进行建模，以充分区分异常，并且现有技术的方法使用高斯分布模型。在这项工作中，我们提出了一种新的方法，通过利用基于规范化流的表达密度模型来改进最先进的方法。我们介绍了残差流，一种新的流架构，从基础高斯分布学习残差分布。我们的模型是通用的，可以应用于任何数据，是近似高斯。对于图像数据集中的分布检测，我们的方法提供了一个原则性的改进。具体来说，我们在各种图像数据集上训练的ResNet和DenseNet架构中证明了我们的方法的有效性。例如，在CIFAR-100上训练的ResNet上，并在ImageNet数据集中检测分布外样本时进行评估，将真阳性率（ TPR ）保持在 95% ，我们将真阴性率（TNR）从56提高到56。7%（当前最新技术水平）至77。5%（我们的）。1. 介绍深度神经网络（DNN）是一种强大的模型，可以在计算机视觉[26]、语音和音频识别[21]以及语言处理[7]中的各种任务中实现高性能。众所周知，领先的DNN架构在从训练阶段观察到的分布中提取的样本进行评估时，具有良好的泛化能力并实现了令人印象深刻的性能[7，19，22，26，37]。然而，当遇到来自不熟悉的分布的输入时，DNN往往会表现得出乎意料。在这种情况下，分布外（OOD）输入导致大多数模型预测错误，通常具有高置信度[18，27，29，31，40]。这种行为引起了对DNN预测可靠性的严重关注，这就阻碍了它们在现实世界中的应用[1]。当代的工作，旨在预测分类不确定性，采用的方法是构建一个置信度得分的基础上训练的神经网络的特征空间的特性在[20]中，Hendrycks和Gimpel提出了一种基线方法，该方法利用了倒数第二层的特征，并使用软最大值得分作为置信度得分。他们的方法是进一步改进梁等人。[28]，他们将软最大分数与温度缩放结合在一起，同时进行输入预处理，强调分布内和分布外样本之间的分数差异。目前最先进的方法是Lee etal.[27]，其在LDA假设下通过高斯分布对训练网络的不同层中的特征分布进行建模（即，不同类别的不同平均值但相同协方差），并基于LDA模型的后验分布为每一层形成置信度得分Lee的方法与以前的方法相比表现出优越的性能;在某些情况下，远远超过[27]。基于观察到网络激活的高斯模型是一种有效的置信度度量，在这项工作中，我们问：我们能否通过使用更有表现力的网络激活分布来提高OOD检测性能？特别是，没有理由期望网络中间层的特征遵循精确的高斯分布，我们期望一个更具表现力的模型应该更准确地捕捉它们的分布。我们提出了一种新的OOD检测方法，并提出了一个更有表现力的密度函数，基于深度归一化流，用于建模训练后的神经网络的特征空间的分布。作为前奏，我们认为在神经网络的特征空间上训练线性流等于拟合高斯分布，如[27]中所提出的。然后，我们利用这个属性，提出了一种新的流架构，增加了一个非线性残差的线性流，以产生一个更有表现力的映射。剩余流模型是独立的兴趣，并应是有效的任何数据是近似的高斯分布。对于未分配的-13995T型.T型.在图像分类中，将网络活动建模为来自高斯分布的残差允许我们对现有技术进行原则性改进，并且在某些情况下产生大幅度的优异性能。此外，所提出的残差流模型使类条件密度学习能够提高性能，即使在每个类的训练示例有限的情况下（如CIFAR100）。最后，为了使分布内和分布外的样本更加可分离，我们将[28，27]的输入预处理思想扩展到我们的基于流的模型，并扰动测试样本以增加它们在我们的模型下的可能性。我们表明，这种扰动可以增加分布样本和分布样本之间的对比度，从而进一步提高性能。我们使用经过训练的卷积神经网络（如DenseNet[22]和ResNet [19]）证明了我们方法的有效性，这些神经网络在各种数据集上进行了训练，并在各种分布外的示例上进行了测试。我们的方法优于最先进的方法[27]，用于检测所有测试案例中的分布外样本。例如，对于在CIFAR-100上训练的ResNet，我们以95%的真阳性率（TPR）提高了从LSUN数据集检测样本的真阴性率（TNR）（即，CIFAR的95%100个测试图像被正确分类），从38.4%[27]到70.4%（我们的），所有超参数都严格根据训练数据集调整。我们的研究结果表明，神经网络的特征空间不一定是一致的。形式具有高斯分布，并且更准确的模型可以显著提高置信度估计。2. 背景我们提出了规范化流和OOD检测的方法2.1. 用于密度估计的规范化流是高维数据分布的有效模型，最初在经典统计学中研究[41，42]，最近在深度学习社区中推广（例如，NICE [11]，RealNVP [12]，以及GLOW [24]）。设x∈X表示从未知分布x∈pX（x）中采样的数据。规范化流的主要思想是将pX（x）表示为高斯分布z的变换，即pZ（z）=N（0，I）。x=g（z）。此外，我们假设映射是双射的x=g（z）=f−1（z）。因此，数据对数似然由变量变化公式给出log（pX（x））=log（pZ（f（x）（1）+log.. det. f（x）Σ双射性假设允许通过反向传播训练表达性映射，例如深度神经网络。此外，给定样本x，其似然性可以从（1）推断。为了实现映射f（x）的易于处理但灵活的雅可比矩阵，NICE [11]和RealNVP [12]的作者提出堆叠一系列简单的双射变换，使得它们的雅可比矩阵是三角矩阵。这样，它的对数行列式简单地由以下各项之和确定：对角线元素。在NICE [11]中，作者提出了每个变换的附加耦合层。这在RealNVP [12]中得到了进一步的改进，它提出了仿射耦合层在每个仿射耦合变换中，输入向量x∈Rd被分成上半部分和下半部分，x1，x2∈Rd/2。这些被插入到下面的转换中，称为单个流块fi：z1=x1，z2=x2<$exp（s i（x1））+t i（x1），（2）其中，n表示逐元素乘法，并且si和ti是非线性映射（例如，深度神经网络），不需要是可逆的。给定输出z1和z2，这个仿射变换是平凡可逆的：x1= z1，x2=（ z2− ti（ z1））<$exp（− si（ z1））。设r表示交换置换，其置换x1和x2的顺序。RealNVP流包括与开关排列交织的k个可逆流块，1fRealNVP= fk· r.- 是的- 是的f2·r·f1。根据链式法则，通过对每个fi的雅可比行列式的对数行列式求和来计算整个变换f的雅可比行列式的对数行列式，使得似然计算（1）易于处理。在GLOW [24]中，在流程块之间添加了额外的排列，以减少将输入分为两半的结构约束：fGLOW=fk·pk−1。- 是的- 是的f3·p2·f2·p1·f1，其中Pi是固定的（随机的）或学习的置换矩阵。由于排列很容易被颠倒，|=1 ， log-lik （ 1 ）仍然是易处理的。 |=1,thelog-li kelihood(1)remainstractable.2.2. 分布外检测考虑在标准监督学习设置中训练的深度神经网络分类器（通过标记数据）。OOD检测问题寻求为分类器预测分配置信度分数，使得OOD数据的分类将被给予比分布中数据更低的分数1RealNVP论文[12]还考虑了其他类型的排列，其中f（x）是映射f（x）在x处的雅可比矩阵。函数f、g可以通过最大似然来学习，其中，例如用于二维图像输入的棋盘掩码。在这里，我们专注于一维数据，只考虑开关置换，这是在[11]中首次提出的。13996ΣΣNCLLNn=1Liang等人[28]将温度缩放应用于网络的软最大输出作为置信度得分。令σi（x）表示网络然后温度标度（TS）得分为：.exp（σ i（x）/T）3. OOD检测的剩余流量我们的目标是检测出分布（OOD）的例子，配备了一个已经训练好的神经网络分类器在我们的处置。这是通过学习网络各层特征空间的分布来实现的，STS （x;T）=max我Nj=1、exp（σj（x）/T）有效的，在分发过程中观察到的输入训练阶段。激励的经验成功的高斯分布模型的李等人。[27]在这段时间里，其中T是温度。此外，Liang et al.[28日]建议通过在增加soft-max得分的方向上修改输入x来预处理输入xx<$TS（x）=x−<$·sign（−<$xlogSTS（x;T）），其中直觉是分布内样本将更容易受到信息预处理的影响，从而导致分布内和分布外样本之间的更好区分。最终的方法，称为ODIN，由下式给出：S ODIN（x;T）=S TS（x<$TS（x）;T）。Lee等人[27]通过考虑网络的不同层，并测量平均网络激活的Mahalanobis距离来对于某个网络层l和类标签c，令φ l（x）表示输入x在层l的特征动作。2令µl，c表示用于训练的特征激活的经验平均值数据来自C类，并设λ1表示经验方差功能激活矩阵，在所有类别中计算。给定一个测试示例x，Lee et al.[27]计算得分作为加权马氏距离：SM（x）=wl ·max{−（φl（x）−µl，c）T−1（φl（x）−µl，c）}，L因此，我们提出了一个规范化的流架构，允许高斯模型的原则性扩展到非高斯分布。我们假设一般神经网络层的激活不一定遵循高斯分布，因此更具表现力的模型应该允许更好的OOD检测性能。我们的模型由一个线性分量和一个非线性残差分量组成，线性分量相当于高斯模型，非线性残差分量允许使用深度神经网络流架构来拟合更具表现力的分布。3.1. 线性流模型我们首先建立一个简单的高斯模型（如在GDA）和线性流的最大似然估计之间的关系。下一个命题表明，对于线性流模型，最大似然参数等价于数据的经验均值和协方差1.提案令X={x1，x2，…x N}是R d中向量的数据集，即： xi ： xi∈ Rd 。考虑线性正规化流，即X=AZ+b，其中Z<$N（0，I），A∈Rd×d，b∈Rd.设p A，b（xi）表示在该流动模型下xi的概率. 参数A，b，最大化数据集X在该模型下的可能性满足：b=1Nn=1经验平均值，= X我AAT=1μN（xi−µ）（xi−µ）T=，经验公式一个分数相当于对每个特征空间进行建模，层作为具有约束方差的C类条件高斯分布，即， P（φl（x）|y=c）=N（φ1（x）|c、c、d），并将分数测量为特征的可能性（在最可能的类别下，并且在所有层上求平均Lee等人。[27]从最后一层的softmax输出与具有关联协方差的类条件高斯分布模型的生成分类器之间这种生成模型数据X的协方差。证据由于X是Z<$N（0，I）的线性变换，因此X在此模型下的概率由下式给出p A，b（xi）<$N（b，AAT）.（三）另一方面，在高斯分布假设下， X 的最大似然（ML）估计量μm、μm已知为经验均值和协方差[13]：是高斯判别分析（GDA）的一个特例，N N也称为线性判别分析（LDA）。1Σ˜1Σµ=x=µ，=（x-µ）（x-µm）T=µm。（四）Lee等人。[27]还提出了一种类似于ODIN的预处理方法，其中Nin=1Nii n=1x<$M（x）=x−1·sign。x（φl（x）−µ2对于卷积神经网络，[27]建议在每个通道的空间维度上取平均激活。在这项工作中，我们采用这种方法，但我们的方法可以应用到实际的功能激活没有改变。通过结合（3）和（4），我们得到了预期的结果。线性流变换A可以通过以下公式得到：通过利用对称半定（PSD）矩阵的谱分解，分解了对称半定（PSD）矩阵，其中Q是正交矩阵，其列是其中，Wl是权重。使用马氏距离作为13997XZ开关非线性置换非线性线性.我2D−12.ΣT型...Σ。Σ注意，从Eq。（2），当si和ti被设置为零时，1（X−µ1.1XZ矩阵D和D的特征向量是一个对角矩阵，其元素是它的特征值。数据X所得可逆线性流X=AZ+b，Z=A−1（X− b），初始化残差x 5培训⋯ ⋯残差x 5其中，b=µm，A=QD2，A−1=D2QT。3在续集中(a) 初始化和训练期间的残留流块。我们提出了一个扩展的线性流，增加了非-线性成分，我们称之为剩余流模型。3.2. 剩余流量模型在本节中，我们将描述如何扩展线性流模型以包括非线性组件。与第2节中描述的直接使用RealNVP或GLOW等完全非线性模型不同，我们更喜欢一个可以作为线性模型的扩展来查看和训练的模型。这种方法将允许一个原则性的改进，李等人的高斯模型。[27]，我们已经知道它会表现得很好。我们首先用剩余流模型组成一个线性流fres=pk·fnon−lin·pk−1。-是的-是的p2·fnon−linp1·fnon−lin·A−1，(b)完整的残差流架构Z = f（X）。图1.剩余流架构。置换矩阵和开关置换矩阵来调解非线性流块。具体地说，pi表示奇数i的随机置换和偶数i的开关置换.图1展示了所提出的架构，完整的实现在第3.3节中描述。3.2.1退化情况k2 1使用以下对数行列式：洛格。. det. f（x）=log. . det. A-1英寸。Σf（x）非线性如果协方差矩阵εn不是满秩的，则多元正态分布是退化的：它的向量el-元素是线性相关的，协方差矩阵并不对应于d维空间上的密度。在这种情况下，Leeetal. [27]建议使用“”，+log我det.I.T型pseudo-in- erseofthemathalanobisdistance，计算马氏T非线性项f non−lin被简化为恒等映射。在这种情况下，置换项没有效果，因为z的分量具有相同且独立的分布。因此，在这种情况下，剩余流fres等价于线性流flin=A−1。因此，我们可以通过将网络s i和t i固定为零来初始化剩余流，并如3.1节所述计算A，这相当于将高斯分布模型拟合到我们的数据中。随后，我们可以微调非线性COM-这相当于将注意力限制在X的坐标的k=rank（k）的子集上，使得该子集的协方差矩阵是正定的（PS）;剩余的坐标被认为是所选坐标的仿射函数在我们的模型中，我们用类似的方法处理简并分布：我们将Z= A<$X设为具有k维高斯分布的k维向量，使用降维变换A<$∈Rk×d。6 我们构造A†=D− QT与在模型中的ponents，以获得更好的拟合数据。在2∈R k×k QT∈Rk×d ，通过考虑逆练习，仅设置网络si和ti的最后一层到零对于初始化步骤是足够的。4与GLOW模型[24]类似，我们发现置换项pi通过分散非线性组件的输入而具有重要贡献。在我们的实现中，我们在固定、初始随机、53为了简化符号，在本文的其余部分中，我们假设经验平均值μs为零，这在实践中通过将数据归零来实现。我们发现这在微调非线性项方面表现更好，因为大多数网络都没有初始化为零，并且在初始训练步骤中获得了较大的梯度在D − 1对角线上的k个非零特征值的根，以及它们在Q T行中对应的特征向量。注意对于退化向量X使用At产生与[27]中使用的伪逆相同的高斯分布在本文的其余部分，我们将A†视为退化向量X的线性流变换。在线性降维之后，我们将剩余流模型应用于产生的k维向量Z，如第3.2节所示。作为注释，上述处理仅移除特征元素之间的线性依赖性，并且不解决非线性依赖性。实际上5随机排列将前一层的输入打乱确定的随机顺序在整个训练过程中保持一致。6Note that here A† is not the inverse of A.XZ残余残余残余残余残余线性线性−.-（X−µ）13998l，c^^ ^您的位置：^L我我^Σ然而，我们发现这种方法对于我们进行的所有实验都是足够我们的剩余流模型是一个一般的归一化流算法1计算残余流量分数S1。输入：测试样本x，每层的逻辑回归检测器αl、噪声ε和C残差流的权重：{f res：εl，c}架构，我们希望它能很好地工作，当数据近似符合高斯分布。3.3. 剩余流量在OOD检测我们现在描述残留流的应用，其扩展了用于OOD检测的[27首先，对于每个网络层l，我们提取每个类标签μl，c的训练数据中的平均激活。那么对于初始化分数向量：SRF（x）=[Sl，c：Sl，c]对于每个层l ∈ 1，. - 是的- 是的，我知道找出最可能的类：c= arg maxcpc（φl（x）−µl，c）向测试样品添加小噪声：x<$=x+εsign<$xpc<$（φl（x）−µl，c^）计算置信度分数：Sl=maxpc（φl（x）−µl，c）c在训练数据中的每个样本x，我们提取网络激活，并从中减去相应类别的平均值μ l，c，以获得中心特征训练集φl（x）。然后，我们通过为每个层构建线性流模型来拟合高斯分布到中心数据，如第3.1节所述。我们为所有类别构建一个单一的线性模型，类似于[27]中的单一最后，对于每个层l和每个类c，我们通过训练非线性端return测试样本的置信度得分αlSl3.5.面向对象检测算法在本节中，我们描述了OOD检测的建议程序。使用训练集，我们首先为每个层和每个类训练一个残差流如3.2所述，流动块f非线性resl，c：c}根据第3.2节。一个测试前-网络权值在线性块函数中。作为一个停止的呐喊-teria用于训练剩余流块，我们使用单独的验证集，并对数据的对数似然进行验证我们发现这种方法在我们的实验中对于防止过度拟合是有效的该模型适用于OOD de-示例x，我们提取了本例中的层{φl（x）：φl}，并计算每个层的最可能类φl。使用cl，我们根据等式计算预处理的输入x（5），重新计算层{φl（xφ）：φl}。最可能类的概率tection，一开始就有很好的表现，领先用作层S的分数=maxp（φ（x）−µ ）的情况。随着训练的进行，更好地适应数据分布实施详情：我们将模型实现为一个线性流块f lin=A−1，然后是10个非线性流块f non−lin，产生一个总共11个流块的映射f res。至于连接块fnon−lin的层pi，我们在开关和随机置换矩阵之间交替我们在每个非线性块（在每个si和ti中）使用三个完全连接的层，中间层中具有泄漏的ReLU激活函数我们用一批大小为256，Adam [23]优化器用于学习非线性块，学习率为10−5−10−6，通过10K个示例的单独验证集选择。3.4.输入预处理受ODIN [28]和Mahalanobis [27]中输入预处理成功的启发，我们提出了对我们方法的扩展。由于Mahalanobis预处理可以被视为最大化高斯模型下的输入的可能性，因此我们类似地为我们的流模型引入以下输入预处理阶段：其中c_n=argmaxp（φl（x）;c_n）且 p（φl（x）;c_n）是概率，c∈C能力分布的第l层的类C语言的特征空间，通过我们的流模型学习。该分数的目的不是增加分布中数据的概率。lcc l l，c最后，有效分数是各层得分lαl Sl.使用与[27]中类似的策略获得权重，其中通过在验证集上训练逻辑回归检测器来计算层αl完整算法在算法1中详细描述。3.6.计算开销重要的是要评估使用更具表现力的网络激活模型的计算开销我们将我们的方法与[27]进行比较，并考虑两种情况：㈠培训期间：我们的初始化步骤等同于[ 27 ]的方法。因此，性能的提高是以额外的训练时间为代价的。图2（b）显示了额外的训练迭代和性能增益之间的权衡。注意，改进随着训练迭代而单调增加。(ii)测试期间：在测试阶段，这两种方法首先计算测试图像通过分类网络的前向传递以进行特征提取。然后，[27]计算Mahalanobis距离，而我们的方法运行剩余流网络的另一个前向传递。在我们的实验中，分类网络的前向传递是主要的复杂性因素。这可能会随着更大的流动模型而改变，但在我们的实验中，我们并不需要这样。因此，我们的性能优势不会产生显著的开销。{f139994. 相关工作OOD检测主要是在未标记的环境中研究的，其中数据仅包含样本（例如，图像），但不是类标签。经典方法包括单类SVM [36]和支持向量数据描述[43]，最近，深度学习方法已经变得流行[5]。[14，3，4，6]等方法使用无监督学习技术提取特征，并将其提供给经典的OOD检测方法。Deep SVDD [33]学习一种神经网络编码，它能最小化特征空间中预定点周围的数据量。最近，Golan和El-Yaniv [17]提出通过对图像应用一组固定的几何变换来学习特征，并训练一个深度网络来分类应用了哪些变换。用于检测OOD示例的密度估计方法最初是在低维空间中研究的[32，8，16]。最近，已经提出了深度生成模型，如生成对抗网络，变分自编码器和基于深度能量的模型，用于高维空间中的OOD检测[2，39，35，44，47，38]。我们的工作重点是标记设置，其中提供了一个经过图像分类训练的网络，以及训练数据和标签。Hendrycks和Gimpel [20]提出了软最大输出作为OOD示例的置信度得分，并[15]将这种方法与蒙特卡洛丢弃集成方法进行了比较。Liang等人[28]提出了ODIN，它结合了温度定标和输入预处理。Golan和El-Yaniv [17]的几何变换方法也可应用于标记设置。最先进的是Lee等人的方法。[27]它使用特征空间中的马氏距离在我们的工作中，我们表明，提供一个更好的密度模型，导致一个显着的改善李等人。的结果。与我们的工作同时，几个OpenReview帖子建议改进[27]的方法。Sastry等人[34]提出了一种基于同一层的不同特征之间的相关性的OOD检测的评分函数，使用高阶Gram矩阵，这可以被视为超越高斯模型的高阶统计的不同形式。Yu等人。[46]研究了将特征图的全局平均值与其空间模式信息相结合的好处，同时使用高斯模型假设。原则上，他们的方法可以与我们改进的基于流量的密度模型相结合。5. 实验在我们的实验中，我们的目标是回答以下问题：（1）剩余流量模型与传统流量模型和高斯模型相比如何？（2）我们的OOD检测方法与最先进的方法相比如何我们的OOD检测评估遵循数据集，实验[27]，由3个训练数据集组成：CI-FAR 10，CIFAR100 和 SVHN ，以及 4 个分布外（ OOD ）数据集：CIFAR10、Tiny ImageNet、SVHN和LSUN。在补充材料中，我们提供了额外的实验，这些实验比较了剩余流、LDA（Mahalanobis）和GDA模型。完整的剩余流量实施可在线获得。75.1. 剩余流量与正常流动在本节中，我们比较了学习残差流模型与学习常规非线性流模型的性能。首先，我们基于ResNet的第一层，在CIFAR-100上训练，其中Tiny-ImageNet用作OOD，检查了所提出的方法在区分分布内和分布外示例的任务上的性能。在我们的比较中，我们评估剩余流量对常规非线性流和线性流/马氏密度模型。图2（a）显示了三种方法的受试者工作特征（ROC）曲线[9]比较，8证明了残差流模型在神经网络特征层分布建模方面的优越性接下来，在图2（b）中，我们评估ROC（AUROC）曲线下面积作为训练迭代的函数。注意，如预期的，线性流9收敛到与基线高斯密度模型相同的AUROC。然而，残差流从基线性能（相当于高斯模型）开始，并在此基础上稳步改进，因为非线性分量允许更好地对数据进行建模。另一方面，传统的非线性流这种不稳定的行为也使得很难决定何时停止训练。事实上，我们发现这个模型在我们的评估中不太稳定。5.2. OOD检测评价我们进行了一系列的实验，以评估的性能，在检测出的分布的例子。这些测试被当代最先进的方法[20，28，27]用于对算法在区分异常方面的功效进行基准测试。我们遵循[27]中提出的实践，其中已经训练好的神经网络与传统数据集结合使用。实验使用具有100层的DenseNet [22]和具有34层的ResNet [19]作为目标网络，在以下数据集之一上进行训练：CIFAR-10、CIFAR-100 [25]和SVHN [30]。特征提取如Lee等人所提出的那样执行。[27]：首先，我们提取特定的输出7https://github.com/EvZissel/Residual-Flow8本文中的流模型训练（残差和正则）是使用从训练集中分割的10K个样本的验证集进行的，停止标准是验证可能性停止增加的过拟合设定点。9线性模型在补充材料----第2节中说明140001.01.001.00.80.980.80.60.40.960.60.40.20.940.20.00.0 0.2 0.4 0.6 0.81.0FPR(a) ROC曲线ResNet0.920 50100150200250300迭代(b) AUROC与迭代0.00.0 0.2 0.4 0.6 0.8 1.0FPR(c) ROC曲线DenseNet图2.（a）和（b）OOD检测，使用从在CIFAR-100上训练的ResNet第一层中提取的特征，使用TinyImageNet作为OOD。(a) 残余流量（AUROC = 98.4）、非线性流量（AUROC = 97.0）和Mahalanobis（AUROC = 97.0）的ROC曲线比较[27]。(b) AUROC比较作为不同模型的训练迭代的函数。请注意，通过我们的初始化方法，剩余流从Mahalanobis的基线性能（c）Mahalanobis（AUROC = 94.6）和残差流（AUROC = 98.9）的ROC比较，使用从CIFAR-100上训练的DenseNet层中提取的特征的加权平均值，LSUN作为OOD。层，并在空间域上平均以产生一组1维特征向量，其大小与相应层中的特征图的数量相匹配。所选层是DenseNet（或ResNet）的每个密集块（或剩余块）的终端接下来，我们训练一组残差流网络，每个残差流网络观察目标网络的不同输出层（例如，DenseNet）由来自其原始数据集的整个示例类激活。训练集的一部分，总共10K，被留出作为验证集，以防止训练期间的过拟合。该过程对目标网络的所有类和所有端块层重复，产生一组训练的残差流。在测试阶段，为目标网络的每一层计算得分，并且使用通过训练逻辑回归检测器（参见算法1）产生的权重来获得最终置信度得分逻辑回归解码器的权重和输入预处理参数是我们模型的超参数，使用单独的验证集（正类）和分布外（负类）对进行调整，由每个类的1，000张图像与Lee等人类似。[27]，我们还研究了当OOD样本的验证集不可用时的性能，在这种情况下，我们使用分布内样本和FGSM [18]生成的相应对抗样本的验证集作为分布外样本来调整超参数。使用原始测试集测试网络，并引入来自 LSUN[45]，CIFAR-10 [25]，Tiny-ImageNet [10]或SVHN [30]的OOD样本。的评价了以下业绩指标：95%真阳性率（TPR）时的真阴性率（ TNR ）、受试者工作特征曲线下面积（AUROC）、精确-召回曲线下面积（AUPR）和检测准确性。我们把我们的方法和-art，采用Mahalanobis评分作为置信度评分[27]。请注意，为了进行公平的比较，我们采用了[27]中提出的超参数选择过程。表1汇总了当OOD验证集可用时，我们的方法与Mahalanobis在所有分布内和分布外数据集对上的OOD检测任务的性能表2比较了使用FGSM生成验证集时的性能，如上所述。我们给出了有和没有输入预处理的方法的检测性能指标（分别为右列和中列），并将其与有输入预处理的马氏评分方法（左列）进行了比较。表1和表2表明，我们的方法超越了当前最先进的方法，在某些情况下，即使没有输入预处理，也明显优于Mahalanobis方法。例如，将我们的方法应用于在CIFAR- 100样本上训练的ResNet，当LSUN用作OOD数据集时，将AUROC从66. 2%至82。0%（无输入预处理）和87. 2%（含输入预处理）。总之，表1和表2中的结果表明，更好的特性激活建模可以带来更好的OOD检测。图2（c）进一步证明了我们的方法与Mahalanobis [27]相比的贡献。我们使用在CIFAR-100上训练的ResNet生成ROC曲线，使用LSUN数据集作为OOD。请注意，图2（c）中的性能是在没有对数据进行任何预处理的情况下获得的。从图2（c）中可以看出，我们的方法明显优于Mahalanobis评分方法。6. 结论我们提出了一种有效的方法来检测训练神经网络的分布外输入，而无需重新训练网络或修改其底层架构，也不会影响其对分布内数据的分类准确性。我们的方法的关键是一种新的深度生成模型-该模型具有独立的意义，最适合于对以下分布进行建模：1.00.80.000.050.100.15 0.20气流非线性残差双马哈拉诺马氏线性流非线性残差穗流1.00.000.70.30诺比斯流动Mahala残留0 0.2500.150.20.050.10.80.9AUROCTPRTPR14001区内区外TNR在TPR 95%AUROC检测精度AUPR在AUPR输出（型号）Mahalanobis [27]/无预处理的Res-Flow/带预处理CIFAR-10SVHN 85.8 /94.9/94.996.6 /98.9/98.991.9 /95.398.7 /99.5/99.588.8 /97.5/97.5（DenseNet）ImageNet95.3/96.4/96.498.9/99.2/99.295.2/96.0/96.098.9/99.2/99.298.7/99.2/99.2LSUN97.9/98.2/98.299.3/99.5/99.596.8 1997年1月至1997年1月99.3/99.6/99.698.2/99.5/99.5CIFAR-100SVHN82.9/ 73.0 /84.996.11995年2月至1997年5月90.9 1998年12月至1999年3月，98.5/ 97.5 /99.089.0 1991年至1995年（DenseNet）TinyImageNet85.8/93.0/93.096.6/98.5 /98.591.2加/94.1加/94.196.9/98.5 /98.595.5/98.5 /98.5LSUN83.6加/96.3加/ 96.394.9/98.9/98.989.9加/95.7加/95.795.7/99.0/99.093.0/98.8/98SVHNCIFAR-1096.5/99.0/99.098.9/99.5/99.595.9/97.4/97.495.6/97.8/97.899.6/99.8/99.8（DenseNet）TinyImageNet99.8/100.0/100.099.9/100.0/100.098.8/99.4/99.499.6/99.8/99.8100.0/100.0/100.0LSUN100.0/100.00/100.0099.9/100.0/100.099.3/99.7/99.799.7/99.9/99.9100.0/100.0/100.0CIFAR-10SVHN96.4/ 94.5 /96.599.1/ 98.9 /99.195.8/ 94.9 /95.899.6/99.697.6/98.3（ResNet） TinyImageNet97.1/97.8/97.899.5/99.6/99.696.3/96.9/96.999.5/99.6/99.699.5/99.6/99.6LSUN98.9/99.0/99.099.7/99.8/99.897.7/97.8/97.899.7/99.8/99.899.7/99.8/99.8CIFAR-100SVHN92.0 88.8 /93.098.4/ 97.8 /98.593.7 1996年至1997年，99.3/ 99.1 /99.396.4 1995年3月至1997年1月（ResNet） TinyImageNet90.8/95.0/94.698.2/98.9/98.993.3/95.0/95.098.1/98.9/98.998.2/98.9/98.8LSUN90.9 1996年7月至1997年2月，98.2/99.1/99.093.5/ 96.0 /95.797.8/99.0/98.998.4/98.8/98.6SVHNCIFAR-1098.5/ 99.3 /99.499.3/99.6/99.696.9/97.7/97.797.0/98.3/98.399.7/99.9/99.9（ResNet） TinyImageNet99.9/100.0/100.099.9/100.0/99.999.1/99.5/99.399.1/99.8/99.799.9/100.0/100.0LSUN99.9/100.0/100.099.9/100.0/100.099.5/99.7/99.799.2/99.8/99.899.9/100.0/100.0表1.我们的方法与Mahalanobis [27]在各种分布内和分布外数据集的图像分类的分布外检测任务上的比较。使用分布内和分布外数据集的验证集调整超参数这里给出的值是百分比，最好的结果用粗体表示。In-dist（模型）CIFAR-10AUROC检测准确度AUPR in AUPR out Mahalanobis [27]/Res-Flow without pre-processing/Res-Flow with pre-processingSVHN 88.7 /91.3/86.1 97.6 /98.3/97.3 92.4 /93.8/91.6 94.7 /96.6/94.3 99.0 /99.3/99.0表2.我们的方法和Mahalanobis [27]在图像分类的分布外检测任务上的比较各种分发和分发外的数据集。使用严格分布和对抗（FGSM）样本调整超参数。这里给出的值是百分比，最好的结果用粗体表示。近似高斯分布。我们的方法是通用的，原则上可以应用于各种数据，如语音识别和自然语言处理。在为图像分类训练的深度网络上，我们获得了最先进的分布外检测性能。7. 致谢这项工作部分由以色列科学基金会（ISF-759/19）和开放慈善项目基金（硅谷社区基金会的一个建议基金）资助（DenseNet）TinyImageNet88.6/ 96.0 /96.197.5/99.1/99.192.2/95.6/95.697.4/99.1/99.197.7/99.2/99.2LSUN92.4/ 98.0 /98.198.3/99.5/99.593.9 96.7 /96.998.4/99.5/99.598.2/ 99.4 /99.5CIFAR-100SVHN48.71998年12月31日至1999年12月31日，85.6加速度：91.4/87.980.0/83.7/80.063.71999年至1999年期间，93.3 1996年1月至1997年3月，（DenseNet）TinyImageNet80.4加/ 91.7/91.592.798.3/98.188.0 1996年至1997年，87.4/98.3/98.094.598.4/98.3LSUN83.8 1995年至1998年，95.0/98.9/98.990.0 1995年1月至1995年3月，93.0/99.0/98.995.7/98.8/98.8SVHNCIFAR-1092.5/95.1/90.096.7/98.7/98.093.8 1995年至1996年期间，97.9/ 99.6 /99.793.5 1995年2月至1996年6月，（DenseNet）TinyImageNet99.1/ 99.7 /99.999.5/99.9/99.998.7/99.2/99.099.6/100.0/100.099.2/99.8/99.6LSUN99.7/100.0/100.099.8/100.0/99.999.1/99.5/99.499.

下载后可阅读完整内容，剩余1页未读，立即下载