基于重构自动编码器的分布外检测方法的改进与性能分析

154 浏览量更新于2023-10-25 收藏 888KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7379重新思考基于重构自动编码器的分布外检测北京航空航天大学ybzhou@impcas.ac.cn摘要在某些情况下，分类器需要检测远离其训练数据的分布外样本。基于重构自动编码器的方法具有理想的特性，通过使用输入重构误差作为新颖性与非新颖性的度量来处理这个问题。常态我们将这种方法的本质描述为一种四元组域翻译，它具有一种内在的偏见，即只查询条件数据不确定性的代理。因此，一个改进的方向被正式作为最大限度地压缩，ING自动编码器的潜在空间，同时确保其重建，作为一个描述域translator的建设性的在此基础上，引入了包括语义重构、数据确定性分解和标准化L2距离在内的策略，以大幅改进原始方法，这些策略共同建立了各种基准测试的最新性能，例如，CIFAR- 100的FPR@95%TPR与Wide-ResNet 上的 TinyImagenet-crop 为 0.2% 。重要的是，我们的方法没有任何额外的数据，难以实现的结构，耗时的管道，甚至损害已知类的分类精度。1. 介绍监督判别式深度分类器实际上是在静态封闭世界假设下设计的，其中模型在部署环境中面对的数据应该从与训练集相同的分布中采样[12]。然而，对于在野外的应用，例如安全关键的自动驾驶车辆，测试数据很难被先验地知道。更糟糕的是，考虑到神经网络，尤其是那些建立在relu或softmax上的神经网络，即使对于完全无法识别或不相关的样本，也很容易产生错误的，但任意自信的类预测[9-分布外（OoD）检测是检测从与训练数据不同的分布中采样的输入的二进制分类[11]。许多现有的方法依赖于使用来自其他猫的标记为OoD的数据进行训练或调整[28]，[29]，然而，覆盖OoD的整个空间是困难的，特别是对于具有大维度的数据（例如，图像）[20]，导致捕获OoD分布的有限方面的监督方法在没有数据选择偏差的情况下几乎不能推广[24]。同时，通过引入具有自适应训练目标的OoD数据，分类器这些因素暴露了OoD检测的无监督性质。在一类无监督方法中，输入反射残差被认为是避免上述问题的新颖性度量[22]。基本假设是，在测试期间，学习重建ID样本的自动编码器相对无法重建OoD[5]。然而，已经广泛报道了自动编码器可以有效地重建各种OoD样本，甚至更好[7，22]，导致当应用于具有挑战性的多类OoD检测任务时，这种方法的性能较差。在本文中，我们调查在一个精确的方式有问题的重建离群点的四重域转换的角度通过形式化两个具体的preconditions下，输入的重建误差是一个有效的数据不确定性措施。首先，其潜在特征位于编码ID样本的域内。第二，解码器具有足够的重构能力来桥接ID图像的域及其潜在表示。前提条件1要求系统捕获潜在表示的离群值。在不依赖于在高维[17]中表现较弱的核密度估计器[1，7，23]的情况下，类似于考虑紧凑潜在表示[2，3]的方案，我们最小化正则化损失以限制分布在某个空间内的ID潜在特征。结合输入重构的训练，阐明了当该空间被充分压缩时，任何潜在特征离群点都将位于该空间之外。存在一个耦合问题，即过度限制的潜在空间可能无法为大规模ID图像提供足够的重建能力为了缓解这种情况，我们将重建目标从图像改变为提取的激活向量（AV）特征，以减少对潜在表达能力的不必要要求。7380XX∈ X ∈ ZXSS∀∈ X S<$··S S空间作为进一步的步骤，从域平移的角度，我们推导出一个基本方程来模拟输入重建误差和数据确定性之间的内在联系。通过概率链规则，我们进一步将其因子化以将数据确定性表示为由逐层编码器特征重构误差定义的条件密度的乘积。证明了虽然整个编码过程中积累的大量信息损失使得直接从紧致的隐空间中恢复输入很难满足前提2，但存在一个等价的前提条件，即只需要分别恢复每个不可逆编码层后丢失的信息因此，受上述概念的启发，我们提出了一个理论上定义良好的OoD检测框架，即分层语义重建。在这个框架中，我们只使用一个全连接（FC）层和softmax函数作为编码器架构，并利用简单的交叉熵损失来限制潜在空间。我们提供了实验证据和数学见解，表明在这样的设置下，可以利用潜在特征的最大值作为用于过滤出可能要重建的OoD数据的域亲和性。由于分类器倾向于在OoD数据上产生较小的神经激活[25，27]，为了使我们的方法对它具有鲁棒性，使用所提出的归一化L2距离评估重建精度。我们的贡献是三方面的：首先，我们建立了一个新的角度来理解基于自动编码器的OoD检测，找出一个方向，以改善他们最大限度地压缩自动编码器在此基础上，本文提出了一个语义分层重构的框架。第三，随着消融和鲁棒性研究，我们使用各种基准数据集对我们的提案进行了全面分析，以证明其有效性，表明基于自动编码器的方法的潜力并不像以前显示的那样暗淡。• 我们的方法在各种具有挑战性的基准测试中提供了与SOTA方法相当的性能。• 作为辅助模块，我们的OoD检测器以与分类器正交的方式进行训练• 在无监督模式的效率和适用性，我们的方法不需要额外的数据。2. 背景及相关工作自动编码器由编码器和解码器组成，编码器用于将输入投影到具有较少维度的潜在空间（也称为瓶颈特征）中，解码器用于从其潜在表示中恢复输入。在训练期间，通过编码器和解码器顺序地处理输入以最小化作为差异的重构误差比如输入和来自解码器的重构输出之间的L2距离。基于重构自动编码器的OoD检测器的基本假设是，专门训练以恢复ID样本的自动编码器不能成功重构OoD样本。因此，重构误差成为测试中OoD检测的一个潜在的有效决策函数.然而，与此预期相反，据报道自动编码器可以准确地重建不同类型的OoD样本[18，29]。在[6]中指出，训练样本中的总噪声因此，提出了鲁棒主成分分析（RPCA）[4]的神经网络扩展。在文献[7]中，将马氏距离和自动编码器的OoD检测方法合并到一个统一的框架中，假设后者可以因此得到增强。最近关于潜在空间自回归的工作[2]提出通过应用自回归密度估计器来最小化ID潜在特征分布的微分熵，从而从识别函数约束自编码器我们的建议还利用限制ID潜在特征的分布因此，我们寻求一个最大压缩的潜在空间，该空间紧密覆盖ID潜在代码的域，以在没有参数密度估计器的情况下获得该域的近似值[26]。这两种方法的比较详细的实验部分，表明我们的方法优于现有的方法相当大的利润率。3. 假设在这一节中，我们将介绍我们的框架的概念.从形式上讲，假设存在一个域RN的特征在于所有的ID图像。当样本z不在X中时，我们将其视为OoD样本。本质上，an yx是一个IDs样本，并且an yz=RN是个OoD 对于由编码器组成的训练自动编码器，E（x）和解码器D（x）对ID样本的数据集，令E（x）所跨越的域，X被IDRM. 在该解码器具有足够的参考能力以充当SID-X的域转换器的假设下，E（·）和D（·）是学习X和SID-X之间的前向和后向映射关系的函数：E （ x ）∈S_ID ，<$x∈X ，（1）D（f）∈X，则f∈SID.（二）由于X和Z在编码时可能重叠，如果我们将编码的OoD样本的域表示为SOoD，则它可以分解为OoD=OoDID+OoDRMID. 使用等式2、任何编码成IDOoD的OoD样本都可以被解码回。对于OoD样本的这一部分，我们预期更大的重构误差，因为它们被解码到不同的域X中。此外，对于这些OoD样本，7381X∈ S ∩S∈X∈SS SS·›→···SSS∈ SS∈ S∈·S ›→ X∈X |∈ S·V∈VV·∈ F∈ F∈ F| ∈ V∈ V ∈F∈FX它们离RN越远，重构误差可能越大。这是符合的特点，数据确定性的衡量标准然而，对于具有潜在特征E（z）OoDRM的OoD样本z，ID，不能保证它的重建。虽然E（z）可以远离编码的ID数据，但是z可以位于由参数确定的流形上自动编码器的参数和架构，其中数据可以精确地重建。一个例子是OoDS全零的图像经过自动编码器处理后如果没有转移操作，其重建将是自然的，联系我们#$D集合所有的零，从而完美地重建了OoD。自然封装的概念图。对于不可知输入r，给定E（r）ID，其重构误差是数据不确定性P（r）的有效测量。该概念被建模为P（r ∈ X |E（r）∈ S（D）= F（Dist（r，D（E（r），（3）对于解码器D（），满足等式2、应用于计算重建误差的适当距离度量Dist（，）和某个单调递减函数F（）：[0，1]以将重建误差映射到概率。注意P（r∈X）=P（r∈X，E（r）∈SID ）+P（r∈X，E（r）∈/SID ），根据SID的定义，我们有veP（r∈X，E（r）∈/SI D）=0，因此P（r∈ X）= P（r∈ X，E（r）∈SID）+0图1.所述四联体结构域翻译的图示。对于编码为ID OoD的OoD样本z1，其潜在表示E（z1）可能等于ID样本的潜在表示X. 因此，E（z1）可以被解码为不同的样本x，，导致大的重建误差。然而，对于具有位于ID之外的潜在表示E（z2）的OoD样本z 2，它不能保证它不能被很好地重构。在这种视角下，图像尤其是空间分辨率高的图像并不是重建目标的好选择满足Eq. 2要求精确地恢复与OoD检测无关的大量细节因此，对数据提出了不必要的要求收集，计算，甚至更糟的是，潜在空间的大小，这是不希望估计P（E（r）∈ SID）。=P（r ∈ X|E（r）∈ S_ID）·P（E（r）∈ S_ID）=F（Dist（r，D（E（r）·P（E（r）∈ SID）。（四）由于在分类器中提取的高级特征可以可以被认为是一个学习的表示，获取几乎所有的信息，除了较少估计P（E（r）ID），而不是拟合E（x）在具有特定家族的经过训练的自动编码器中提取的ID为了在限制性假设下得到有偏的密度估计，我们可以在训练阶段对ID潜在特征应用额外的正则化损失，以迫使它们驻留在已知的紧凑空间内，以便更好地近似ID。这一想法在图中表示。二、由于ID被这个受限的潜在空间所覆盖，随着对ID潜在特征施加的限制性力量的增加，为了保留联合学习的重建任务的力量，模型隐含地寻求更大程度地使用这个潜在空间。这意味着一个有限的潜在空间可以更多地由ID填充。因此，估计P（E（r）ID）几乎等于估计E（r）在该受限潜在空间中的概率。然而，OoD检测设置中的该正则化器同时与过度限制的潜在空间可能导致ID图像中的重建困难它潜在地违反了D（）作为ID、[001 pdf 1st-31 files]将F（Dist（r，D（E（r）推离准确的估计，P（r）E（r）的配对ID）。因此，这里的主要兴趣是最大限度地压缩自动编码器类代表性细节[8]和训练好的分类器的存在，为了避免在像素空间上重建的复杂性和减轻原始方法对图像尺度的依赖性，我们转而重建分类器倒数第二层输出的AV特征作为图像的低维语义表示来量化数据的正常性。在下文中，我们将不可知图像的AV特征表示为v，并且将从ID图像提取的AV特征的域表示为RH，其中H表示v的维度。随着潜空间的不断压缩，输入信息在潜空间中丢失的部分也在增加。注意到这个不可恢复的信息部分是从编码器的每一个不可逆层累积的，我们如下分解P（v），以避开直接从缺乏表达性的潜在空间恢复输入的困难：对于具有n层的编码器 E（），我们表示fi（v），i = 1，. - 是的- 是的，n作为第i层的输出特征，输入AVv. 如果我们把fi（v），v ∈ V的整环记为Fi，自然P（ f1（v）∈ F1， f2（v）∈ F2，. f n（v）∈ Fn|v ∈ V）=1. 因此P（v∈ V）=P（v∈V）·1=P（v∈）P（f1（v）1，f2（v）2，.， f n（v）nv）=P（v、f1（v）1，f2（v）二、…f n（v）n）。假设该编码器的前向传播形成x D（E（z））1EDE（x）≠E（z1）EE（z2）z1z2ED呢？7382SS·····YY∥ ∥·∈ VF−∈F |∈Y∈V·图例：SID：ID潜在表示图2. 当对潜码施加的限制力增加时ID的转变的图示。在训练过程中，潜在代码与潜在空间（红点圆）的任何偏差将受到很大的惩罚。通过充分收紧该空间，原则上它将主要用于满足共同学习的重建任务。因此，检测ID的离群值近似等于识别该潜在空间之外的特征。更好地估计输入的确定性在实践中，特别是当潜在的空间是过度限制。4. Practical Approach在建立框架之后，我们必须指定Dist（，），F（）和正则化子的形式。在这里，我们给出了我们简单但有效的设计顺序。通过最小化像L2距离的重建差异，我们可以在等式中训练解码器。5（假设重构误差遵循高斯分布）。然而，这种范数相关的距离度量不适合用作测试时间中的Dist（，）。显然，L2范数越小的特征，其L2反射损失越小，并在补充资料中给出了相应的证明。不幸的是，神经网络倾向于在模型不熟悉的输入上产生较小的神经激活[25，27]，即，OoD。结果导致v层1的马尔可夫过程层2f（v）层3f（v）在Eq.5，应用L1或L2距离莱恩−→1−→2−→评估重建精度可以产生相对... −→ f n（v），任何特征都可以由它的任何前一个特征确定。因此，P（fi（v）∈Fi，fi+1（v）∈Fi+1，.， f n（v）∈ Fn）= P（ fi（v）∈Fi），则我们有OoD的较大值（参见第5.3）。这与我们所期望的相反。因此，我们提出了归一化L2距离（NL2）作为Dist（·，·）的具体形式来计算残差P（v∈ V）=P（v∈ V，f1（v）∈ F1，f2（v）∈ F2，.，fn（v）∈ Fn）˜ ˜ff˜（六）=P（fn（v）∈ Fn）·P（v ∈ V|f 1（v）∈ F 1，...，fn（v）∈ Fn）n−1Dist（f，f）=NL2（f，f）=Nf−Nf，·P（fi（v）∈Fi|fi+1（v）∈ Fi+1，.，fn（v）∈Fn）i=1=P（fn（v）∈ Fn）·P（v∈ V|f 1（v）∈F 1）n−1·P（fi（v）∈Fi|fi +1（v）∈ Fi +1）。i=1其中f是f的重构。应该注意的是，f是用f而不是自身的规范。利用NL2距离，在单位超球体的表面上的f的投影与其等比例重建之间评估重建。因此，消除了特征范数的负面影响延伸自Eq。3，F（Dist（fi（v），D一期+1（fi+1（v））可以F（）将重建误差转换为条件概率，该条件概率可以作为内点重建来测量可以用作P（fi（v））的估计ifi+1（v）i+1 ）对于 i = 1 ， . ，其中 Di+1 是能够从 fi+1（v），v，-是的替换后P（v∈ V）=P（fn（v）∈Fn）·F（Dist（v，D1（f1（v）从前面的讨论中得出的错误。在这里，我们解释为，对于一个给定的功能，它的重建误差小于ID图像的功能，这自然是互补的累积密度函数（CCDF）的重建误差的概率假设重建误差n−1·F（Dist（fi（v），Di+1（fi+1（v）））））。i=1（五）的ID数据分布为高斯分布，我们有与Eq相反4，在Eq.5允许我们近似P（v），而不需要从有限的潜在空间直接输入rebraction，这需要在一轮中恢复相当大的累积信息损失相反，这可以通过一系列解码器D1来实现，这些解码器D1集中于恢复在每个单个编码层之后丢失的信息，该信息仅是总信息丢失的较小分割部分，因此相对容易被恢复。由于解码器的重构能力与其作为所定义的条件概率的估计的性能密切相关，因此等式（1）为：5允许aF（NL2（f，f））=F（NL2（f，f））|μ，σ+μ），（7）其中，Σ（）是高斯的CCDF，μ和σ是从验证数据中导出的高斯参数。由于一个微小的减少导致一个值的数值大小的实质性变化时5是等式的多项的乘积在0到1的范围内，随着编码器层数的增加，即使对于训练数据，最终估计也可以迅速地崩溃到零。为了避免这种情况，我们在方程中引入了附加项7，以防止其在ID验证数据的特征上产生小于0.1的值。弱约束力强限制力编码器解码器7383·SKKΣΣ不不·S∈S∈FΣ·QQS联系我们S QQQ ∈ S·∀∈ Q∈ V1·我1我2C不2不不不算法1训练流水线在M（·）的训练中分散其生成ID的注意力要求：ID训练集：{（xi，y i）}k和ID验证能够完全最小化分类损失的AV，即，的set：{（}ni=1δ。因此，所提出的编码器仅包括一个FC层xi，yi）i=k+1要求：网络M（）在ID训练集上进行了全面训练，ID类1：冻结网络M（·）的所有参数，并共同训练W∈RH×C（C是ID类的数量），以及下面的softmax，正则化项只是与应用于M（·）训练的分类损失相同（这里，我们假设交叉输入p y）。由于对于小δ，SID<$Q两个解码器D1D2以最小化损失LL=L1+L2+λ· L正则化子L=v−D（Wv），L=Wvi−D（S（Wvi））i=1Ki=1ID）是可行的，通过估计S（W v）y大于ID数据的概率，其中y指示最大值。类似于Eq。7，我们将P（S（W v）∈ SID）表示为a（μ 0，σ 0）pa的CDF Φ（S（W v）y）-Lregularizer=−1（j=yi）logS（Wvi）j，i=1j =1其中vi是xi层编码器并替换Eq. 6和7到Eq。5，我们得到极限正态性测度Wv正则化损失第二章：训练后，计算：P（v∈V）= Φ（S（T ）y|µ0，σ0+ 0）（µ，σ）=norm.fit（{S（Wvi）}）VD1（Wv）·（−|µ 1，σ 1 + µ 1）00Tyi i=k+1v（九）（µ，σ）=norm.fit（{vi−D1（Wvi）<$}n）WvD2（S（Wv））不11阿罗夫河阿罗夫河i=k+1·（）wv-|μ2，σ2+ μ2）。WvD（S（Wvi））T（µ，σ）=norm.fit（{i−2T}n）22wviwvii=k+1考虑到softmax得分在校准的概率-城市空间可以更好地区分OoD和ID [16]，我们3：返回D1，D2，W，（µ0，σ0），（µ1，σ1）和（µ2，σ2）应用温度标度logitsWv和概率S（Wv）在等式中9 .第九条。由于W v→Wv是一个双射映射，对于P（E（v）ID）的精确估计，即，P（f n（v）n）在Eq. 5.将ID AV编码到紧密覆盖ID的可重构紧致空间中是必要的。由于分类器M（）被优化以将ID图像转换成AV特征，该AV特征能够通过线性变换（最后一个FC层）被转换成接近其对应的独热标签的概率向量，随后是软最大函数，隐式地具有v→Wv→SoftMax（Wv）在相同的分类损失下正则化，对任意v∈ V，存在δ→0满足E（v）= S（ Wv）∈ Q：={p：1−py δ，C则忽略恢复其中丢失的信息的术语。通过从Alg.1，我们可以通过Eq. 9，并依赖于阈值来确定数据异常可以在没有OoD数据的情况下进行设置（参见第5.3）。If an input is recognized as ID, prediction outputfrom the classifier is suggested for its label assignmentamong known classes.5. 实验5.1. 实验设置网络和培训详情：我们采用密集-pii=1= 1，pi（八）对于i = 1，2，...， c}，BC [13]和Wide-ResNet-28-10 [32]作为用于AV特征提取的分类器M（）我们不对这两个模型应用权重衰减，而是使用具有丢弃概率的其中yY：=1，.，c表示对c个ID类别之一的地面真值as-签名成员资格，并且S表示softmax函数。定义在概率的归一化空间中，如果δ足够小，则其中的每个点可以潜在地对应于ID数据的预测后验概率。近似地，对于p，v满足E（v）=S（W v）= p，即，对于p，pID。此外，由于ID来自Eq。8，我们强调在δ足够小的条件下，紧覆盖ID的易处理紧空间是这样的.从根本上说，为了确保δ尽可能小，我们建议不要涉及额外的损失项，如重量衰减对于Dense-BC为0.2。其他培训细节相同在[16]中，一旦M（）被训练ID训练集，我们使用最后一个FC层之前的模块作为特征提取器，并进一步训练编码器和两个解码器，用于Alg中描述的拟议分层语义重建。1.一、所提出的编码器的FC层用M（）中的最后一个FC层的参数初始化。此外，每个解码器是一种三层FC网络，作为可能变体中的一种简单形式，其详细架构在补充材料中列出。对于训练细节，在没有Nesterov动量的情况下应用Adam求解器。n分束高斯分布在采用了拟议的两个-7384∈ S表1. OoD检测导致CIFAR-10和CIFAR-100。并与DAC、GODIN、 CADC三种SOTA方法为了公平的比较，我们使用DAC的结果，在原始文件中报告的CONIC和GODIN。如果没有结果报告为某个设置，则将其标记为−。此外，DAC和GODIN没有报告检测误差和AUPR-in的实验结果。对于每个评估指标，↑表示值越大越好，↓表示值越低越好。所有值均为百分比。表2. 用于Dense-BC的OoD检测的 AUROC在有/没有重量衰减的情况下训练。Dense-BC w.o.重量衰减Dense-BC，重量衰减Wide-ResNet w.o.权重衰减0.0100.0150.020零点零二五200150100500The learning rate starts at 1e-4 and decays by a factor of10 at 50% and 75% of total updates. 批量大小和历元数分别为128和300。概率为0.5的水平翻转是唯一的数据增强，我们不应用权重衰减，丢弃或其他细化技巧。对于超参数，根据经验，损失重量λ为1，温度T设置为100，并且λi，这有助于避免崩溃的正态性评分，应用为10×σi。数据和评估指标：从CIFAR-10/100 [ 14 ]的训练集中随机取出2000张大小为32 × 32的图像，用于验证，特别是公式中分布参数的推导。9 .第九条。其他48000幅图像被用作ID数据集来训练网络。ID测试集是CIFAR-10/100 的测试拆分。 OoD 测试集包括TinyImagenet-resize 、 TinyImagenet-crop 、 LSUN-resize、LSUN-crop和iSUN，在[16]中声明和发布。除iSUN（8925）外，每个测试集包含10000张图像。在评价指标方面，由于只要图像不被检测为OoD，我们的方法就在这里，我们简单地重申我们的评估指标：1. FPR@95%TPR：当真阳性率（TPR）为95%时的假阳性率（FPR）值。2. AUROC：受试者操作特征曲线下面积是TPR与FPR曲线它是一个独立于阈值的度量，更高的值意味着TPR和FPR之间更好的权衡。3. AUPR：精确率-召回率曲线下的面积表示精确率和召回率之间的变化关系，温度定标预测置信度图3. 表中模型的softmax得分分布。1和2.为了更好的区分，我们提出了温度标度的概率。这也是阈值无关的。AUPR-in表示其中ID被指定为正的AUPR。4. 检测误差：检测误差计算为所有可能的评分阈值上的最小值0.5（1-TPR）+ 0.5FPR，并且可以解释为最小误分类概率。5.2. 基准测试结果根据[16]中给出的基准，我们将我们的方法与最近三种著名的SOTA方法进行了比较：自监督遗漏分类器的Encoding（EQUC）[30]，广义ODIN（GODIN）[12]和深度弃权分类器（DAC）[28]。应该注意的是，DAC和CNOC都涉及在训练期间被视为OoD的数据。CISC是多个分类器的集合（见表1）。1，五个分类器），并且CNOC和GODIN都应用输入处理策略，需要对每个图像进行额外的推理和耗时的梯度计算。总体结果见表。1.一、它强调，对于Wide-ResNet-28-10 ，在所有设置中，特别是对于 CIFAR-100 和TinyImagenet大小调整/LSUN大小调整的数据集对（通常被认为是具有挑战性的情况），我们的处方优于其他处方，具有相当大的利润。然而，对于Dense-BC，我们的方法在一小部分情况下提供了不太可比的分数。Wide-ResNet和Dense-BC之间的性能差异并不令人惊讶，因为我们的方法的有效性依赖于足够紧凑的潜在空间来估计P（E（v）ID）。具体而言，我们的方法受益于等式中较小的δ8，即，较大预测置信度OoD数据集TINcELOC DAC GODIN我们的GODIN我们的GODIN DAC GODIN我们的DAC我们的0.8--0.52.21.9 99.8--99.8 99.899.8FPR@95%TPR↓检测错误↓AUROC↑AUPR-In ↑Dense-BCCIFAR-100WRN-28-10 WRN-28-10Dense-BCCIFAR-10CIFAR-100CIFAR-10CIFAR-10OoD数据集AUROCw/w.o. 权重衰减TINc98.2/ 九十八点九TINr96.8/ 九十七点七LSUNC99.2/ 九十九点四LSUNr97.0/ 九十七点二iSun96.7/ 九十六点七TINc96.1/97.1TINr94.5/ 九十六点七TINr2.91.9-1.53.83.199.499.5-99.599.499.6LSUNC1.9--0.83.22.099.6--99.899.699.8LSUNr0.91.5-0.52.52.299.799.6-99.799.799.7iSun---2.9-4.0---99.2-99.4TINc9.2--1.56.73.498.2--99.498.499.5TINr24.518.7-6.611.66.495.294.9-98.495.598.0LSUNC14.2--3.78.24.897.4--99.097.699.1LSUNr16.59.2-5.59.15.896.897.9-98.597.098.6iSun---9.0-7.4---97.9-98.2TINc1.2-6.63.72.64.699.7-98.798.999.799.1TINr2.9-4.210.23.87.199.3-99.197.799.398.1LSUNC3.4-8.51.74.13.599.3-98.399.499.399.5LSUNr0.8-2.414.62.27.899.8-99.497.299.897.7iSun--2.517.3-8.8--99.496.7-97.5TINc8.3-12.214.86.36.698.4-97.697.198.698.0TINr20.5-6.714.810.08.896.3-98.696.796.797.2LSUNC14.7-25.07.88.55.597.4-95.398.097.698.7LSUNr16.2-6.214.88.88.097.0-98.796.897.497.5iSun--18.618.0-9.9--98.496.1-96.97385表3.在Wide-ResNet-28-10上对所提出的方法的每个有效分量进行了击穿效应。选择ID数据集作为更具挑战性的CIFAR-100，以便更好地进行比较。最左边的列是原始LSA的实验结果，其特征在于四个后来交替的分量：1。图像：选择图像作为重建目标，从中计算用于检测OoD的重建误差2. L2：用于评估重建精度的距离度量是L2距离。3. AutoReg：添加自回归回归器以压缩潜在空间。4.基本：新颖性得分由输入重构误差而不是特征重构误差计算。它是第二章中介绍的基于香草重建自动编码器的OoD检测器的框架。二、右边的每一列表示从左边的模型修改而来的模型，主要修改在顶部，−后面的组件替换为+后面的组件。每一个的详细配置都放在补充材料中方法第1个LSA−→第2个−→第3个−→第4个−→第5个−→第6个图像，L2，AutoReg，基本 - 图像+特征 -L2+NL2 -AutoReg+CE - 基本+分层 +EpsilonTINcFPR@95%TPR↓42.099.55.93.00.21.589.236.798.699.191.399.4AUROC↑TINrFPR@95%TPR↓51.278.820.317.72.56.689.480.195.296.490.898.4AUROC↑LSUNCFPR@95%TPR↓55.8100.04.74.10.83.770.07.598.198.791.399.0AUROC↑LSUNrFPR@95%TPR↓28.265.620.017.71.75.593.380.595.796.091.198.5AUROC↑iSunFPR@95%TPR↓52.566.426.022.42.89.089.482.394.895.890.897.9AUROC↑2018161412108642CIFAR-10 Tiny-rTiny-c LSUN-r LSUN-c iSUN图4.CIFAR-10（ID）测试中AV特征L2范数的探讨集合和各种OoD数据集。在 Wide-ResNet 中提取特征。将重建目标从图像改变为其AV特征的效果。从表中的第1栏到第2栏3，通过简单地使用从AV特征计算的L2重建误差作为决策函数，将OoD与ID区分开变得更加困难，甚至是灾难性的。这是可以预期的，因为分类器倾向于在OoD图像上生成具有较小范数的AV特征（图13）。4），这种现象对OoD样品产生较大的反射误差是不利的。从第2列到第3列，在更改为使用所提出的归一化L2距离作为身份证样本为此，如前所述，我们在训练用作AV特征提取器的分类器时去除了0.0001的权重衰减，以获得性能提升（见表1）。2）。然而，在我们去除了Dense-BC的权重衰减之后，CIFAR-100的分类准确率从77%急剧下降到72%，CIFAR-10的分类准确率从95%下降到91%（Wide-ResNet的分类准确率分别为78%到77%和95%到94%），这使得Dense-BC更难生成能够产生极高预测置信度的ID AV特征[1 1]，如图所示。3 .第三章。因此，我们的方法是非常有效的，当采用分类器较少依赖于权重衰减作为AV特征提取器。5.3. 消融研究为了研究每个技术贡献的有效性和特征，我们采用上述潜在空间自回归（LSA）[2]，这是基于自动编码器的OoD检测器的主要改进，作为基本方法逐渐修改为我们的提议，并比较每次修改产生的差异为了更好地区分 OoD探测器，我们在以下消融研究中使用CIFAR-100作为ID数据集总体比较见表。3 .第三章。AV特征作为重建目标。我们研究了EF-特征重建的评价指标，在所有设置的性能得到了全面的提高。这不仅证明了所提出的NL2距离度量的有效性，而且验证了我们的观点，即语义特征可以使基于自动编码器的OoD检测比图像更好。交叉熵作为潜空间正则化子。接下来，我们用所提出的编码器和正则化器替换LSA的原始编码器和正则化器，并应用基于Eq. 4（一个解码器）。第4列中的结果表明，在所有情况下，具有我们的编码器的检测器得分更高。此外，与原始的自回归器组成的五个掩蔽FC层相当大的参数，我们的简单的交叉熵的正则化，利用ID AV功能的性质，是非常有效的计算。确定性分解的分层重建。通过将基本框架调整为逐层重建的框架，以使用所提出的确定性度量来检测OoD，第5列和第6列都表示我们方法的完整版本。唯一的区别是，在第5列的第二项在方程.9不适用。比较第4列和第6列，我们的框架植根于拟议的数据确定性分解执行一致更好的限制潜在空间。为了进一步证实这一点，我们训练了两个具有相同配置的模型序列L2范数7386Tiny-r（L）Tiny-c（L）LSUN-r（L）LSUN-c（L）iSUN（L）Tiny-r（B）Tiny-c（B）LSUN-r（B）LSUN-c（B）iSUN（B）∈Sx103109886964400300200940.010.1110100 100010000正则化子权（一）200.00.20.4（b）第（1）款0.6 0.810000.00 0.050.10（c）第（1）款0.15 0.20图5.（a）：AUROC作为我们的分层重建框架的正则化子λ的权重的函数（蓝色）与基本框架（红色）。（b）：根据公式计算的正态性分数分布9，其中σi应用为0;（c），其中σi应用为10 × σi。第4列和第6列的情况相同。它们只是在正则化子的损失权λ上有所不同，并在图中比较了它们的5a.可以观察到，对于建立在基本框架上的模型，通过减小λ，AUROC首先得到改善，然后迅速下降。这表明，他们的表现是相当敏感的限制权力的程度施加在潜在的空间。相比之下，我们的框架在很宽的λ范围内表现出优越性和鲁棒性。由于最佳权重很难设定，9998972 4 6 8 10CIFAR-10中的班级数（一）100999897969594LSUN-rLSUN-ciSUN208 316 424 532640AV特征尺寸（b）第（1）款巧妙地没有OoD验证数据，我们的框架在OoD的检测性能和稳定性方面都很出色。短期内。此外，第5列和第6列表明，在显著程度上，在增加 FPR@95%TPR 的同时， Δ R 项有助于增强AUROC所示图5b，在没有统计项的情况下，OoD样本的正态性得分大多浓缩为0，而ID样本的正态性得分跨越较宽的空间。结果表明，在我们的框架下，产生较低残差的OoD样本不可能具有较高的预测置信度，反之亦然。特别是对于TinyImagenet-crop和LSUN-crop，第5列中的模型在FPR@95%TPR下的得分几乎触及天花板因此，在输出正态性分数上设置的高召回阈值与第4列相比，第6列对AUROC和FPR@95%TPR都具有更好的结果。因此，如果评估指标之间的性能更加平衡是首选，则可以添加附加项以防止ID样本产生低确定性（图11）。第5c段）。5.4. 稳健性探索ID类的数量。由于用于重建的潜在空间具有与分类器的输出相同的维度，因此可以认为，我们的方法在ID类的数量很小的情况下可能会失败。为此，我们从CIFAR-10中随机选择2、4、6、8个类，分别作为ID数据集，以评估我们的方法对ID类数量的参见图6a，我们的方法可以在这些数据集上产生一致的性能，直到2类之一一种解释图6.用于OoD检测的AUROC作为（a）的函数：CIFAR-10中的ID类别数，以及（b）：作为自动编码器的输入信息的AV特征的尺寸。这是因为具有较小尺寸的潜在空间有利于估计P（E（v）ID）。此外，ID AV特征的变化在减少类的数量的同时减少，因此当类的数量小时，需要较少的潜在空间的表现力。AV功能的尺寸图6b报告了一项研究，询问我们的方法对AV特征维数的鲁棒性。为此，我们在CIFAR-100上训练了多个倒数第二层通道数量不同的Wide-ResNet-28- 10，并分别使用它们来提取AV特征作为自动编码器的输入结果证明了我们的建议的鲁棒性。6. 结论我们提出了一种新颖有效的分层语义重构框架，通过保留自动编码器的重构能力，同时最大限度地压缩其潜在空间，来增强基于重构自动编码器的OoD检测器。综合实验表明，该方法在多类OoD检测上达到了SOTA性能，具有与分类器正交、计算效率高、无需OoD数据等优点重要的是，我们的理论观点的四重域翻译和数据不确定性分解不同于现有的方法的范式，探索性地探索空间，为未来的工作。TinyImagenet-resizeTinyImageNet-裁剪LSUN-调整大小LSUN-cropiSUNCIFAR-10040020000.0 0.2 0.4 0.6TinyImagenet-resizeTinyImagenet-crop LSUN-resizeiSunLSUN-cropCIFAR-100AUROCLSUN-rLSUN-ciSUNAUROCAUROC7387引用[1] 通过学习深层的一般知识，联合检测和叙述异常事件。2017年1[2] D. Abati、A.Porrello，S.Calderara和R.库奇亚拉用于新颖性检测的潜在空间自回归。2018. 一、二、七[3] JB

下载后可阅读完整内容，剩余1页未读，立即下载