广义ODIN：图像外分布检测方法

64 浏览量更新于2023-10-23 收藏 15.69MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

109510广义ODIN：在没有从外分布数据中学习的情况下检测图像的外分布0Yen-Chang Hsu 1，Yilin Shen 2，Hongxia Jin 2，Zsolt Kira 101 佐治亚理工学院，2 三星研究美国0摘要0深度神经网络在应用于与训练集相同分布的数据时取得了显著的性能，但在其他情况下可能会显著降低。因此，检测示例是否为外分布（OoD）对于能够拒绝此类样本或警告用户至关重要。最近的研究在由小型图像数据集组成的OoD基准上取得了显著进展。然而，许多基于神经网络的最新方法依赖于使用内分布和外分布数据进行训练或调整。后者通常很难事先定义，并且其选择可能会对学习产生偏见。我们的工作基于一种流行的方法ODIN[21]，提出了两种策略，使其摆脱与OoD数据调整的需求，同时提高其OoD检测性能。我们具体提出了将置信度评分分解以及修改的输入预处理方法。我们表明这两种方法在检测性能方面都有显著帮助。我们对一个更大规模的图像数据集进行的进一步分析表明，特定语义变化和非语义变化这两种类型的分布变化在问题的难度上存在显著差异，为ODIN类似策略的工作何时起作用和何时不起作用提供了分析。01. 引言0最先进的机器学习模型，特别是深度神经网络，通常是为静态和封闭的世界设计的。这些模型在训练时假设测试时的输入分布与训练分布相同。然而，在现实世界中，数据分布以复杂、动态的方式随时间变化。更糟糕的是，新的概念（例如新的对象类别）可以随时呈现给模型。这种类内分布的变化和未知概念都可能导致灾难性的失败，因为模型仍然试图基于其封闭世界的假设进行预测。这些01 ODIN：神经网络的外分布检测器[21]0因此，故障通常是沉默的，因为它们不会导致模型中的明确错误。上述问题已被制定为检测输入数据是否来自内分布（即训练分布）还是外分布（即与训练分布不同的分布）的问题[13]。这个问题已经研究了很多年[12]，并且已经从拒绝[8, 5]、异常检测[1]、开放集识别[2]和不确定性估计[22, 23,24]等多个角度进行了讨论。近年来，一种流行的基于神经网络的基准方法是使用从softmax分类器输出的类后验概率的最大值，这在某些情况下可以作为区分内分布和外分布输入的良好指标[13]。基于训练的神经网络分类器，ODIN[21]提供了两种策略，温度缩放和输入预处理，使最大类概率成为检测OoD数据的更有效的得分。其性能已经通过[34]进一步确认，其中将15种OoD检测方法与一个更少偏见的评估协议进行了比较。ODIN优于流行的策略，如MC-Dropout [7]、DeepEnsemble [18]、PixelCNN++[33]和OpenMax[3]。尽管ODIN有效，但它需要OoD数据来调整其策略的超参数，这引发了一个担忧，即使用一个OoD数据集调整的超参数可能不适用于其他数据集，这在[34]中进行了讨论。事实上，其他基于神经网络的方法[20,38]，遵循相同的问题设置，也有类似的要求。[6,14]通过使用精心选择的OoD数据集来进一步利用OoD数据的想法，以规范类后验的学习，使OoD数据的置信度远低于内分布。最后，[19]使用生成模型在内分布边界周围生成OoD数据进行学习。尽管上述工作表明使用OoD数据进行学习是有效的，但OoD数据的空间（例如图像像素空间）通常太大而无法覆盖，可能导致学习的选择偏差。一些先前的工作尝试在没有OoD数据的情况下进行学习，例如[35]使用词嵌入进行额外的监督，[25]应用度量学习准则。然而，̸109520神经网络0计数0计数0计数0内分布数据0OoD数据0图1：通过鼓励神经网络输出得分h(x)和g(x)的行为类似于条件概率中的分解因子，来检测OoD图像的概念，其中明确考虑了封闭世界假设din。其阐述在第3.1节中。绿色和红色直方图之间的小重叠意味着x轴是一个用于区分OoD数据和内分布的良好评分函数。重叠程度通常通过AUROC来衡量，详见第4.1节。0两个工作都报告了与ODIN类似的性能，表明在没有OoD数据的情况下学习是一种具有挑战性的设置。在本工作中，我们紧密遵循ODIN的设置，针对没有OoD数据的学习问题提出了两种相应的策略。首先，我们提供了一种新的概率视角来分解预测类别概率的置信度。我们特别添加了一个变量来明确采用封闭世界假设，表示数据是否是内分布的，并讨论了它在分解条件概率中的作用。受到概率视角的启发，我们为分类器使用了一种被除数/除数结构，鼓励神经网络表现出类似于分解置信度效果的行为。该概念在图1中进行了说明，我们注意到被除数/除数结构与温度缩放密切相关，只是缩放取决于输入而不是调整的超参数。其次，我们基于ODIN的输入预处理方法，并使用仅有内分布数据来调整其扰动幅度（这是预处理方法的一个超参数）。然后，我们对CIFAR10/100、TinyImageNet、LSUN、SVHN以及更大规模的数据集DomainNet进行了广泛的评估，以研究提出的策略在何种条件下起作用或不起作用。结果表明，这两种策略可以显著改进ODIN，达到接近甚至超过使用OoD数据进行调整的最先进方法[20]的性能。最后，我们对DomainNet进行了系统评估，揭示了两种分布转移类型之间的相对困难：语义转移和非语义转移，这两种类型的转移是通过是否与包含新语义类别相关来定义的。0真实0素描0信息图0quickdraw0划分A 划分B0语义转移0非语义转移0图2：语义转移和非语义转移的示例方案。使用DomainNet[31]图像进行说明。我们的实验将使用两个划分（A和B）的设置，其中只有real-A是内分布数据。0新语义类别的出现。总之，本文的贡献有三个方面：0•通过分解置信度的新视角，激发了一组考虑封闭世界假设的分类器设计。0•一种在没有OoD数据的情况下进行调整的改进输入预处理方法。0• 在没有OoD数据的学习设置下进行的综合分析和实验。02. 背景0本工作考虑了分类问题中的OoD检测设置。我们从一个数据集Din = {(xi,yi)}Ni=1开始，其中xi∈Rk是内分布数据，yi∈{y}={1..C}表示C个类别的分类标签。Din是通过从分布pin(x,y)中采样生成的。然后我们有一个判别模型fθ(x)，其参数θ是通过内域数据集Din学习得到的，可以预测类别的后验概率p(y|x)。当学习得到的分类器fθ在开放世界中部署时，可能会遇到来自不同分布pout的数据，其中pout≠pin。由于从可能遇到的所有分布pout中进行采样通常是不可行的，特别是当维度k很大时，比如图像数据的情况。还要注意的是，我们可以将差异的类型概念上分为非语义转移和语义转移。具有非语义转移的数据是从分布pout(x,y)中采样的。这种转移的例子来自于相同的对象类别，但以不同的形式呈现，比如卡通或素描图像。这种转移也是领域自适应问题中广泛讨论的一种情况。在语义转移的情况下，数据是从分布pout(x,¯y)中采样的，其中{¯y}∩{y}=�。换句话说，数据来自于训练集Din中没有见过的类别。图2是一个示例说明。SODIN(x) = maxiexp (fi(x)/T)�Cj=1 exp (fj(x)/T)(1)SℓMaha(x) = maxi−(f ℓ(x) − µℓi)T Σ−1ℓ (f ℓ(x) − µℓi),(2)SMaha(x) =�ℓαℓSℓMaha(x)(3)p(y|din, x) = p(y, din|x)p(din|x)(4)109530上述分离导致了两个自然问题，必须回答这些问题，以使模型在开放世界中工作：当遇到输入 x � p out ( x , ¯ y )时，模型如何避免进行预测，或者在 x � p out ( x , y )时拒绝低置信度的预测？在这项工作中，我们提出引入一个显式的二进制域变量 d ∈ { d in , d out }，以表示这个决策，其中 d in 表示输入是 x � p in ，而 dout 表示 x � p in (或者等价地，x � p out)。请注意，虽然模型通常无法区分我们定义的这两种情况，但我们仍然可以通过估计这个单一变量 d来回答上述两个问题。因此，最终目标是找到一个与域后验概率 p ( d | x ) 相关的评分函数 S ( x ) ，其中来自 S ( x )的更高分数 s 表示 p ( d in | x )的更高概率。现在可以通过在 s上应用阈值来进行二进制决策。选择这样的阈值取决于应用要求或性能度量计算协议。通过上述符号，我们可以将基准方法 [13] 视为一个特例，其中具有特定评分函数 S Base ( x) = max y p ( y | x ) ，其中 p ( y | x )是从使用交叉熵损失训练的标准神经网络分类器 f θ获得的。然而，S ( x )可以成为一个可学习的参数化函数，并且不同的OoD方法可以通过特定的参数化和学习过程进行分类。方法之间的一个关键区别是参数是通过OoD数据学习还是不使用OoD数据学习。02.1. 相关方法0本节介绍与我们的工作最相关的两种方法：ODIN [21] 和Mahalanobis[20]。这两种方法将作为我们评估的强基线，特别是因为Mahalanobis相对于ODIN具有显著优势。请注意，ODIN和Mahalanobis都是从在 D in 上训练的基本分类器 f θ开始的，然后具有额外的参数需要调整的评分函数 S ( x ; fθ )。在它们的原始工作中，这些参数是专门针对每个OoD数据集进行调整的。在这里，我们将描述一些在不调整OoD数据的情况下使用它们的方法。ODIN包括两种策略：温度缩放和输入预处理。温度缩放应用于其评分函数，其中 f i ( x )为第 i 类的逻辑回归：0尽管ODIN最初涉及使用OoD数据调整超参数T，但也已经表明，通常更倾向于较大的 T值，这表明在1000之后增益饱和[21]。我们遵循这个指导，并在我们的实验中固定 T = 1000。0Mahalanobis由两部分组成：马氏距离计算和输入预处理。得分的计算如下所示：0f ℓ ( x ) 代表神经网络第 ℓ 层的输出特征，而 µ i 和 Σ分别代表类别的均值表示和协方差矩阵。超参数为 α ℓ。在原始方法中，α ℓ是通过一个包含内部分布和外部分布数据的小验证集进行回归得到的。因此，他们针对每个OoD数据集都有一组调整后的 α ℓ。因此，对于不调整OoD数据的基准方法，我们使用均匀加0ℓ S ℓ Maha ( x )。请注意，这两种方法都使用输入预处理策略，其中有一个需要调整的超参数。在它们的原始工作中，这个超参数也是针对每个OoD数据集进行调整的。因此，我们开发了一个不需要使用OoD数据进行调整的版本。03. 方法03.1. 分解的置信度0[36, 29,13]观察到softmax分类器倾向于输出高度自信的预测，他们报告说“将随机高斯噪声输入MNIST图像分类器会给出91%的预测类别概率”。他们将这归因于softmax函数的使用，它是指示函数的平滑逼近，因此倾向于给出尖峰分布而不是类别的均匀分布[13]。我们承认这个观点，并进一步将其视为softmax分类器设计中的一个限制。为了解决这个限制，我们的灵感来自于重新考虑其输出，即类别后验概率p ( y |x)，它根本不考虑域d。换句话说，当前的方法基于隐含的封闭世界假设，条件于域d = din。因此，我们在分类器中使用了显式的变量din，将其重写为联合类别-域概率和域概率的商，使用条件概率规则：0方程4从概率的角度解释了为什么分类器倾向于过度自信。考虑一个例子x � p out：自然地期望联合概率P ( y , d in | x)是低的（例如0.09），这是C个类别中最大值。人们还期望其域概率p ( d in | x)也是低的（例如0.1）。因此，使用方程4计算p ( y | d in ,x )会得到一个高概率（0.9），fi(x) = hi(x)g(x) ,(5)109540演示了过度自信可能导致的结果。根据方程4的形式，我们将p ( y , d in | x )和p ( d in | x)称为分解的置信度分数。解决上述问题的一个直接方法是通过对类别y和域d进行监督来学习一个分类器，以预测联合概率p ( y , d in | x )。相比于p ( d in | x )，学习预测p ( y , din | x )更好，因为它可以同时用于通过arg max y in p ( y ,d in | x)预测类别和通过阈值拒绝预测。这个想法与[14]的工作相关，当将一个非均匀类别概率的预测给予分类器时，它添加了一个额外的损失项进行惩罚。然而，这种策略需要用于正则化训练的非分布数据。如果没有对域d进行监督（即没有非分布数据），就没有合理的方法来学习p ( y , d in | x )和p (d in | x)。这种情况类似于无监督学习（或自监督学习），我们需要插入关于任务的假设或先验知识来进行学习。在我们的情况下，我们使用方程4中的被除数/除数结构作为先验知识来设计分类器的结构，为分类器提供分解类概率置信度的能力。在分类器的被除数/除数结构中，我们为类别i定义了逻辑f i (x )，它是两个函数h i ( x )和g ( x )的商：0然后，商f i ( x)通过指数函数（即softmax）进行归一化，以输出类别概率p ( y = i | d in , x)，它受到交叉熵损失的影响。通过softmax的指数归一化效果，交叉熵损失可以通过两种方式最小化：增加h i ( x)或减小g ( x)。换句话说，当数据不在分布的高密度区域时，h i ( x)可能趋向于较小的值。在这种情况下，鼓励g ( x)变小，以便得到的logits f i ( x)可以进一步最小化交叉熵损失。而当数据在高密度区域时，h i ( x )通常可以相对容易地达到较高的值，因此其对应的g( x )值不太鼓励变小。h i ( x )和g ( x)之间的讨论交互作用是鼓励h i ( x )表现类似于p ( y = i, din | x )和g ( x )表现类似于p ( d in | x)的主要驱动力，这样OoD和分布数据之间的分数分布重叠就很小，这是p ( y, d in | x )和p ( d in | x)的固有属性，如图1所示。03.1.1 设计选择0虽然被除数/除数结构提供了一种趋势，但并不一定保证分解的发生0置信度效应的发生。hi(x)和g(x)的特征可以在很大程度上影响分解的可能性。因此，我们讨论了一系列简单的设计选择，以研究是否通常可以获得这种分解。具体而言，我们有g(x) = σ(BN(wgfp(x) +bg))，它通过另一个线性层、批归一化（BN，为了更快的收敛可选）和一个sigmoid函数σ，顺序地使用神经网络倒数第二层的特征fp(x)。对于hi(x)，我们研究了三种相似性度量，包括内积（I），负欧氏距离（E）和余弦相似度（C），分别对应于h Ii(x)，hEi(x)和h Ci(x)：0h Ii(x) = wiTfp(x) + bi; (6)0hEi(x) = −∥fp(x) − wi∥2; (7)0h Ci(x) = 0∥wi∥∥fp(x)∥ (8)0因此，整个神经网络模型fθ在其倒数第二层之后有两个分支(hi和g)（见图1）。在训练时，模型计算logitfi，然后在其上方使用softmax函数和交叉熵损失。在测试时，可以通过计算arg max i fi(x)或arg max ihi(x)（两者都会给出相同的预测）来进行类别预测。对于异常分布检测，我们使用评分函数SDeConf(x) = max ihi(x)或g(x)。请注意，当hi(x) = hIi(x)且g(x) =1时，该方法简化为基线方法[13]。我们将我们的方法的三个变体称为DeConf-I、DeConf-E和DeConf-C。为简单起见，上述名称表示使用hi(x)作为分数。使用g(x)将具体指示。03.1.2 温度缩放0方程5中的g(x)可以立即看作是[28]和一份同时报告[37]中讨论的学习温度缩放函数。然而，我们的实验结果强烈表明，g(x)不仅仅是一个缩放。在许多实验中，g(x)的OoD检测性能明显优于基线，表明其在估计p(din|x)方面具有潜力。更重要的是，温度缩放通常用作学习更好的嵌入[40]、软化预测[15]或校准置信度[9]的数值技巧。我们的工作为其效果提供了概率视角，表明这种温度可能与分类器将封闭世界作为先验的强度有关。03.2. 修改后的输入预处理策略0本节描述了ODIN[21]中提出的输入预处理方法的修改版本。主要目的是使扰动幅度�的搜索不依赖于异常分布数据。in109550修改的目的是使扰动幅度�的搜索不依赖于异常分布数据。输入的扰动由以下公式给出：0ˆx = x - �sign(-�xS(x)) (9)0在原始方法[21]中，使用一个由Dval in � pin和Dval out �pout组成的半半混合验证数据集，在21个值的列表上搜索最佳的�值。扰动图像ˆx被输入到分类模型fθ中计算得分S(x)。使用基准度量（稍后描述的TNR@TPR95）评估每个幅度的性能，并选择最佳幅度。这个过程对每个异常分布数据集重复进行，因此原始方法得到的�值的数量等于基准中异常分布数据集的数量。在我们的方法中，我们在只有正常分布验证数据集Dval in的情况下搜索最大化得分S(x)的��：�� = arg max �0�0S(ˆx)(10)0我们的搜索标准仍然基于[21]的相同观察。他们观察到，当输入扰动被应用时，内部分布的图像的得分s相对于外部分布的图像更容易增加。因此，我们使用方程式10，因为我们认为对于内部分布数据来说，使得得分大幅增加的�应该足以在得分上产生区别。我们的方法甚至不需要类标签，尽管它在Dvalin中是可用的。更重要的是，我们的方法仅基于Dvalin选择一个�，而无需访问基准性能指标（例如TNR@TPR95），从而大大避免了超参数拟合到特定基准分数。最后，我们在一个更粗糙的网格上进行�的搜索，该网格只有6个值：[0.0025，0.005，0.01，0.02，0.04，0.08]。因此，我们的搜索速度更快。虽然由于较粗的网格可能会出现过度调整的情况（例如，最大值位于网格中两个尺度的中间），但可以通过将找到的幅度减小一个尺度（即除以2）来减轻这种情况。这个简单的策略在各种评分函数上始终获得或保持性能，例如S Base，S DeConf，S ODIN和SMaha。本节中的方法与本文中评估的所有方法都是正交的。为了方便起见，我们将在其他方法的名称后面添加一个*以表示组合，例如Baseline*和DeConf-C*。04. 实验04.1. 实验设置0整体流程：在所有实验中，我们首先在一个内部分布的训练集上训练一个分类器fθ，然后调整0超参数（例如扰动幅度�）在内部分布验证集上进行调整，而不使用其类标签。在测试时，OoD检测评分函数S(x)根据fθ的输出计算得分s。得分s分别计算用于内部分布验证集Dvalin和外部分布数据集Dout�pout。然后，将得分s发送到性能度量计算函数。上述过程与该领域相关研究中的相关工作[21, 20, 14, 34, 38,19]相同，只是我们不使用OoD数据来调整评分函数S(x)中的超参数。内部分布数据集：我们使用尺寸为32x32的SVHN[27]和CIFAR-10/100图像[17]进行分类任务。使用CIFAR-100分类器进行OoD检测通常比CIFAR-10和SVHN更困难，因为更多的类别通常涉及更广泛的变化范围，因此更容易将随机数据（例如高斯噪声）视为内部分布。出于这个原因，我们在我们的消融和鲁棒性研究中使用CIFAR-100。外部分布数据集：我们包括ODIN[21]中使用的所有OoD数据集，包括TinyImageNet（裁剪），TinyImageNet（调整大小），LSUN（裁剪），LSUN（调整大小），iSUN，均匀随机图像和高斯随机图像。我们还添加了SVHN，一个彩色街道数字图像数据集，作为一个困难的OoD数据集。选择受到使用生成模型进行OoD检测的一系列工作的发现的启发[32, 26,4]。这些工作报告称，CIFAR-10的生成模型对SVHN图像分配了更高的似然性，表明这是一个OoD检测的困难案例。网络和训练细节：我们使用DenseNet [16]，ResNet[11]和WideResNet[39]作为分类器的主干。DenseNet具有100层，增长率为12。它使用批量大小为64进行300个周期的训练，权重衰减为0.0001。ResNet和WideResNet-28-10使用批量大小为128进行200个周期的训练，权重衰减为0.0005。在这两种训练中，优化器为带有动量0.9的SGD，学习率从0.1开始，并在训练周期的50％和75％处以0.1的因子递减。请注意，我们不对DeConf分类器中的hi(x)函数的权重应用权重衰减，因为它们作为类别的中心点工作，这些权重使用He初始化[10]进行初始化。在鲁棒性分析中，模型可能被指示具有额外的正则化。在这种情况下，我们在被除数/除数结构的输入处额外应用0.7的丢失率。评估指标：我们在OoD检测文献中使用了两个最广泛采用的指标。第一个是接收器操作特征曲线下的面积（AUROC），它通过改变阈值绘制内部分布数据的真正例率（TPR）与OoD数据的假正例率（FPR）之间的曲线。因此，它可以被视为一个平均分数。第二个指标是真负率IDOoDAUROCTNR@TPR95Baseline / ODIN* / Mahalanobis* / DeConf-C*CIFAR-100Imagenet(c)79.0 / 90.5 / 92.4 / 97.625.3 / 56.0 / 63.5 / 87.8Imagenet(r)76.4 / 91.1 / 96.4 / 98.622.3 / 59.4 / 82.0 / 93.3LSUN(c)78.6 / 89.9 / 81.2 / 95.323.0 / 53.0 / 31.6 / 75.0LSUN(r)78.2 / 93.0 / 96.6 / 98.723.7 / 64.0 / 82.6 / 93.8iSUN76.8 / 91.6 / 96.5 / 98.421.5 / 58.4 / 81.2 / 92.5SVHN78.1 / 85.6 / 89.9 / 95.918.9 / 35.3 / 43.3 / 77.0Uniform65.0 / 91.4 / 100. / 99.92.95 / 66.1 / 100. / 100.Gaussian48.0 / 62.0 / 100. / 99.90.06 / 33.3 / 100. / 100.CIFAR-10Imagenet(c)92.1 / 88.2 / 96.3 / 98.750.0 / 47.8 / 81.2 / 93.4Imagenet(r)91.5 / 90.1 / 98.2 / 99.147.4 / 51.9 / 90.9 / 95.8LSUN(c)93.0 / 91.3 / 92.2 / 98.351.8 / 63.5 / 64.2 / 91.5LSUN(r)93.9 / 92.9 / 98.2 / 99.456.3 / 59.2 / 91.7 / 97.6iSUN93.0 / 92.2 / 98.2 / 99.452.3 / 57.2 / 90.6 / 97.5SVHN88.1 / 89.6 / 98.0 / 98.840.5 / 48.7 / 90.6 / 94.0Uniform95.4 / 98.9 / 99.9 / 99.959.9 / 98.1 / 100. / 100.Gaussian94.0 / 98.6 / 100. / 99.948.8 / 92.1 / 100. / 100.IDOoDAUROCTNR@TPR95ODINorig / Mahaorig/ ODIN* / Maha* / DeConf-C*C-100Imagenet(r)85.2 / 97.4 / 91.1 / 96.4 / 98.642.6 / 86.6 / 59.4 / 82.0 / 93.3LSUN(r)85.5 / 98.0 / 93.0 / 96.6 / 98.741.2 / 91.4 / 64.0 / 82.6 / 93.8SVHN93.8 / 97.2 / 85.6 / 89.9 / 95.970.6 / 82.5 / 35.3 / 43.3 / 77.0Imagenet(r)98.5 / 98.8 / 90.1 / 98.2 / 99.192.4 / 95.0 / 51.9 / 90.9 / 95.8LSUN(r)99.2 / 99.3 / 92.9 / 98.2 / 99.496.2 / 97.2 / 59.2 / 91.7 / 97.6SVHN95.5 / 98.1 / 89.6 / 98.0 / 98.886.2 / 90.8 / 48.7 / 90.6 / 94.0109560表1：四种OoD检测方法的性能。表中的所有方法在训练和验证过程中都没有访问OoD数据。ODIN*和Mahalanobis*是修改后的版本，不需要任何OoD数据进行调整（详见第2.1节）。表中使用的基础网络是使用CIFAR-10/100（即分布数据或ID）训练的DenseNet。所有值都是在三次运行中平均的百分比，最佳结果用粗体表示。请注意，我们只展示了文献中最常见的设置。我们选择了DeConf-C，因为它在我们的分析中显示出最佳的鲁棒性，但它不一定在所有DeConf变体中表现最佳。有关详细信息，请参见图3和图4的摘要。表的更全面版本请参见补充材料。0在95%真阳性率（TNR@TPR95）下，模拟了对内部数据的召回率应为95%的应用要求。在高TPR下具有高TNR比具有高AU-ROC分数更具挑战性；因此，TNR@TPR95可以更好地区分高性能的OoD检测器。04.2. 结果与讨论0OoD基准性能：我们在表1中展示了在没有OoD数据的情况下训练的方法与8个OoD基准数据集的整体比较。ODIN*和Mahalanobis*明显优于基线，而DeConf-C*在很大程度上优于它们。这些结果清楚地表明，学习无需OoD数据的OoD检测是可行的，而我们在第3.1节和第3.2节中提出的两种方法对于这个目的非常有效。在表2中，我们进一步将我们的结果与原始的ODIN [21]和Mahalanobis[20]方法进行了比较，这些方法是在每个OoD数据集上进行调整的。我们引用了[20]报告的两种原始方法的结果，因为它使用了0表2：使用CIFAR-10/100的OoD数据与不使用OoD数据进行OoD检测的结果。ODIN orig和Mahaorig（Mahalanobis的缩写）的值是从Mahalanobis论文[20]中复制的，这些值是使用OoD数据进行调整的。ODIN*，Maha*和DeConf-C*的值是从我们的论文的表1中复制的，这些值没有任何OoD数据的访问权限。本表中的所有方法都使用相同的DenseNet作为骨干网络。请注意，使用不同的网络骨干可能会有轻微的差异。例如，Mahaorig在ResNet-34上的表现略优于DeConf-C*。0C-100使用相同的骨干网络、OoD数据集和评估OoD检测性能的指标进行比较。在比较中，我们发现我们的ODIN*和Mahalanobis*在大部分情况下表现比ODIN orig和Mahalanobisorig差。这个结果并不令人意外，因为原始方法从使用OoD数据中获得优势。然而，我们的DeConf-C*在许多情况下仍然优于这两种原始方法。交叉设置比较进一步支持了所提出策略的有效性。消融研究：我们分别研究了应用DeConf和我们修改的输入预处理（IPP）策略的效果。在图3中，它显示了DeConf策略的三个变体（I，E，C）中的h（x）和g（x）都有助于CIFAR-10和SVHN分类器的OoD检测性能，表明DeConf的概念通常是有效的。然而，在图4a中，DeConf-I和g（x）在CIFAR-100分类器上的失败可能表明这些函数具有不同的鲁棒性和可扩展性，我们将在下一节中进行调查。使用DeConf策略的一个缺点是，在CIFAR-100的情况下，分类器的准确性可能会稍微降低（见表3）。这可能是在模型中引入了另一个术语g（x）来适应损失函数的自然结果。这可能导致对于远离内分布数据高密度区域的数据，h（x）没有获得高分，而是分配了较低的分数。当应用额外的正则化（dropout率为0.7）时，我们看到这种效应减小了，只有1%的准确性下降。在图5中，结果显示仅使用内分布数据调整扰动幅度是一种有效的策略，允许我们减少学习所需的监督。这里的监督意味着内/外分布的二进制标签。75.461.861.8109570（a）CIFAR-10分类器0（b）SVHN分类器0图3：我们的DeConf方法的三个变体的消融研究（第3.1节）。Plain表示g（x）=1，因此关闭了被除数/除数结构。图中的每个柱子都是通过24次实验平均得到的（使用表1中列出的8个OoD数据集进行3次重复，注意在SVHN分类器的情况下，我们使用CIFAR-10作为OoD进行替换）。骨干网络是Resnet-34。使用内积的plain设置相当于用于分类的普通Resnet。总体而言，h（x）和g（x）的得分都显著高于随机（AUROC=0.5）和相应的plain基线。补充材料中有详细结果。0（a）CIFAR-100分类器0（b）带有额外正则化（dropout 0.7）的CIFAR-100分类器0图4：类似于图3的消融研究。该图显示了DeConf-I的性能，所有的g（x）都通过添加额外的正则化得到了改善。0鲁棒性研究：本研究调查了OoD检测方法何时有效或无效。在图6中，它显示了内分布训练数据的数量对OoD检测器性能的影响。马哈拉诺比斯方法对数据需求最低，但DeConf方法在高数据范围内通常达到更高的性能。在图6中，我们还通过改变内分布数据中的类别数量来检查可扩展性。在这个测试中，DeConf-E*和DeConf-C*显示出最好的可扩展性。总体而言，DeConf-C*比其他方法更具鲁棒性。0图5：我们的输入预处理（IPP）策略的OoD检测性能，该策略仅使用内分布数据选择扰动幅度。plain设置表示IPP被关闭。内分布数据是CIFAR-100。骨干网络是Resnet-34。每个值都是在表1中列出的8个OoD数据集上平均得到的结果。每种方法都有自己的评分函数S（x）（参见第2.1节和第3节），导致IPP在不同程度上的性能提升。0最后，图7显示高性能方法（如DeConf-E*，DeConf-C*和Mahalanobis*）对神经网络的类型和深度不敏感。因此，影响OoD检测性能的主要因素是内部分布样本和类别的数量。增强鲁棒性：过拟合问题可能是一些DeConf变体和g(x)的OoD检测性能低的原因。在图4b中，当应用额外的正则化（dropout率为0.7）时，OoD检测性能显著提高。图8通过改变训练数据中的样本和类别数量对DeConf-I及其g(x)进行进一步分析。具有额外正则化的性能明显优于没有额外正则化的情况。此外，正则化的hi(x)和g(x)之间的性能也非常相似，表明过拟合是一个重要问题。最后，我们注意到DeConf-E和DeConf-C在图4b中具有降低的性能。这个结果可能是因为dropout通常会损害质心和数据之间的距离计算，因为一部分特征被屏蔽。结果表明，(I，E，C)的设计可能不是该问题的最佳选择，为未来的工作留下了空间，以找到一对鲁棒的hi(x)和g(x)来解决OoD检测问题。04.3. 语义偏移与非语义偏移0尚未探索的一种有趣的OoD数据方面是语义和非语义偏移的分离。因此，我们使用一个更大规模的图像数据集DomainNet[31]，重复类似于表1的评估。DomainNet具有来自六个不同领域的345个类别的高分辨率（180x180到640x880）图像。在进行实验时，数据集中有四个领域的类别标签可用。他们(K)(K)Table 3: The in-domain classiﬁcation accuracy. The ”+”means that the classiﬁer is trained with extra regularization(dropout rate 0.7). The expanded version of this table isavailable in Supplementary.CIFAR-10DenseNet95.2±0.194.9±0.195.0±0.195.0±0.1CIFAR-100DenseNet77.0±0.275.8±0.476.4±0.175.9±0.1SVHNResNet3496.9±0.196.8±0.196.5±0.196.7±0.1CIFAR-10ResNet3495.2±0.195.0±0.194.9±0.195.1±0.1CIFAR-100ResNet3478.5±0.276.0±0.176.2±0.175.8±0.2CIFAR-100+ResNet3478.2±0.177.4±0.377.2±0.377.2±0.1DomainNet(Real-A)ResNet3473.6±0.173.0±0.173.4±1.572.2±0.5SNSBaseline / ODIN* / Maha* / DeConf-C*real-B✓75.1 / 69.9 / 53.6 / 69.815.3 / 15.4 / 5.09 / 14.0sketch-A✓75.5 / 80.7 / 59.5 / 84.520.1 / 31.2 / 7.30 / 37.5sketch-B✓✓81.8 / 85.7 / 60.4 / 89.125.2 / 36.8 / 7.55 / 44.1infograph-A✓79.6 / 82.7 / 81.5 / 89.023.5 / 27.8 / 21.6 / 45.4infograph-B✓✓82.1 / 85.3 / 80.9 / 90.924.8 / 31.7 / 21.9 / 49.6quickdraw-A✓78.8 / 96.4 / 67.4 / 96.921.1 / 79.9 / 3.38 / 83.1quickdraw-B✓✓80.5 / 96.9 / 66.1 / 97.422.1 / 83.6 / 2.38 / 86.6Uniform✓✓54.7 / 75.6 / 99.8 / 99.31.65 / 5.37 / 100. / 100.Gaussian✓✓71.3 / 95.5 / 99.9 / 99.40.64 / 46.9 / 100. / 100.109580图6：6种OoD检测方法的鲁棒性分析。左图是在CIFAR-10中训练的具有不同样本数量的分类器。右图是在CIFAR-100中训练的具有不同类别数量的分类器。线上的每个点是在8个OoD数据集上的结果的平均值。骨干网络是Resnet-34。详细讨论请参见第4.2节。0图7：使用不同的神经网络骨干进行鲁棒性分析。内部分布数据是CIFAR-100。每个柱子是在8个OoD数据集上的结果的平均值。0图8：对DeConf-I的hi(x)和g(x)进行鲁棒性分析。+号表示使用额外正则化（dropout率为0.7）训练的模型。0真实、素描、信息图和速写是真实、素描、信息图和速写，导致不同类型的分布偏移。为了创建具有语义偏移的子集，我们将类别分为两个分割。分割A的类别索引从0到172，而分割B的类别索引从173到344。我们的实验使用真实-A作为内部分布，并使用其他子集作为外部分布。根据第2节中给出的定义，真实-B与真实-A存在语义偏移，而素描-A没有语义偏移。因此，素描-B具有两种类型的分布偏移。图2说明了这个设置。在真实-A上学习的分类器使用Resn

下载后可阅读完整内容，剩余1页未读，立即下载