基于最大分类器离散化的双头深度卷积神经网络用于检测OOD样本

145 浏览量更新于2023-10-16 收藏 1.46MB PDF 举报

深度学习模型

输入检测

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9518基于最大分类器离散化的相泽清晴日本东京大学{yu，aizawa}@ hal.t.u-tokyo.ac.jp摘要由于深度学习模型已经在许多商业应用中实现，因此正确检测分发外（OOD）输入以保持模型的性能，确保收集的数据的质量并防止应用程序被用于非预期目的非常重要。在这项工作中，我们提出了一个双头深度卷积神经网络（CNN），并最大化两个分类器之间的差异来检测OOD输入。我们训练了一个由一个公共特征提取器和两个分类器组成的双头CNN，这两个分类器具有不同的决策边界，但可以正确分类分布（ID）样本。与传统方法不同，我们还利用未标记的数据进行非监督训练，并使用这些未标记的数据来最大化两个分类器的决策边界之间的差异，以将OOD样本推到分布（ID）样本的流形之外，这使得我们能够检测远离ID样本支持的OOD样本。总体而言，我们的方法显着优于其他国家的最先进的方法上的几个OOD检测基准和两个案件的真实世界的模拟。1. 介绍在深度学习方法的几次突破之后，深度神经网络（DNN）已经取得了令人印象深刻的结果，甚至在图像分类[8]，人脸识别[17]和自然语言处理[5]等领域超越了人类。与此同时，越来越多的商业应用在其系统中实现了DNN，以高精度解决不同的任务，以提高其产品的性能。为了实现稳定的识别性能，这些模型的输入应该来自与用于训练模型的训练数据相同的分布[33]。然而，在现实世界中，输入是由用户上传的，因此应用程序可以在不寻常的环境中使用或用于其他非预期目的，这意味着这些输入样本可以从图1：OOD检测的实验设置。与以往的方法不同，我们的方法同时利用标记的ID数据和未标记的ID/OOD数据进行训练请注意，我们不知道未标记的样本属于哪个语义类，也不知道未标记的样本是ID还是OOD。不同的分布，并导致DNN提供错误的预测。因此，对于这些应用，重要的是准确检测分布外（OOD）样品。在这项工作中，我们提出了一个新的设置为无监督的分布检测。虽然以前的研究[9，14，16，25，26]只使用标记的ID数据在监督下训练神经网络，但我们也在训练过程中使用未标记的数据图图1显示了我们用于食品识别的OOD检测的实验虽然我们不知道未标记样本的语义类别，也不知道未标记样本是ID还是OOD，但我们发现这些数据有助于提高OOD检测的性能，并且这种未标记数据在实际应用中很容易获得。为了利用这些未标记的数据，我们还提出了一种新的DNN分布外检测方法。许多OOD检测算法尝试使用分类器的置信度来检测OOD样本[9，14，16，26]。对于每个输入，基于预先训练的分类器评估置信度分数，然后将分数与阈值进行比较，并根据9519图2：以前的OOD检测方法和提出的OOD检测方法的比较。上图：以前的方法试图通过与决策边界的距离来检测OOD样本。下：所提出的方法通过两个分类器之间的差异来检测OOD样本。置信度分数是否大于阈值。那些具有较低置信度分数的样本（这意味着它们更接近决策边界）被归类为OOD样本，如图的上半部分所示。2.在之前的工作中，他们使用CIFAR-10/CIFAR-100作为ID和其他数据集，TinyImageNet/LSUN/iSUN作为OOD。虽然ID和OOD之间的类有一点重叠，但我们遵循相同的设置进行比较。虽然现有的方法在某些数据集上是有效的，但当ID数据集具有大类数时，它们仍然表现出较差的性能。例如，使用CIFAR- 100 [13]（具有100个类的自然图像数据集）作为分布（ID）数据集，使用TinyImageNet[4]（具有200个类的另一个自然图像数据集）作为OOD数据集，这意味着当前方法不能足够好地分离ID样本和OOD样本的置信度得分为了克服这个问题，我们引入了一个双头深度卷积神经网络（CNN），它具有一个共同的特征提取器和两个独立的分类器，如图所示。3.由于OOD样本没有被清晰地分类到ID样本的类别中，或者远离ID样本的分布，因此具有不同参数的两个分类器将被混淆并且输出不同的结果。因此，如图1的左下部分所2、OOD样本将存在于两个决策边界的间隙中，这使得OOD样本的检测更加容易。为了实现更好的性能，我们进一步微调神经网络，以正确分类标记的ID样本，并最大限度地提高差异在两个分类器的决策边界之间，同时。请注意，在我们的方法中，我们不使用标记的OOD样本进行训练。我们评估我们的方法在一组不同的分布数据集对。在许多设置中，我们的方法优于其他方法的一个很大的保证金。本文的贡献总结如下：• 我们提出了一种新的实验设置和一种新的训练方法，用于分布外检测在神经网络中。我们的方法不需要标记的OOD样本进行训练，可以很容易地在任何现代神经架构上实现。• 我们建议利用两个分类器之间的差异来分离分布样本和OOD样本。• 我们在最先进的网络架构上评估了我们的方法，例如DenseNet [10]和Wide ResNet（WRN）[32]，在几个分布外检测中，任务，不仅包括几个OOD检测基准，而且还包括真实世界的模拟数据集。2. 相关工作目前，存在用于分布外检测的若干不同方法。表1总结了所述的关键方法。作为最简单的方法，Hendrycks Gimpel [9]试图根据预测的softmax类概率来检测OOD样本，这是基于观察到不正确和OOD样本的预测概率往往低于正确样本的预测然而，他们还发现，一些OOD样本仍然可以被预先训练的神经网络过度自信地分类，这限制了检测的性能。为了提高Hendrycks Gimpel方法的有效性[9]，Lee等人&。[14]使用修改的生成对抗网络[7]，其涉及同时训练生成器和分类器。他们训练生成器生成Liang等人[16]还提出了一种改进的解决方案，该方案应用了温度缩放和输入预处理，称为神经网络的非分散检测器（ ODIN ）。他们发现，通过在最终softmax层之前按较大常数（温度缩放）缩放非标准化输出（logits），ID样本的最大logit和剩余logit之间的差异大于OOD样本，这表明ID和OOD样本之间softmax得分9520表1：最近相关方法的总结。模型改变是该方法如何修改原始分类网络。测试复杂度等于所需通过网络的次数乘以网络的数量训练数据是每种方法用于训练的数据类型AUROC是受试者特征曲线下面积（详见第4节）。显示了在CIFAR-100上训练的DenseNet作为ID和TinyImageNet调整大小为OOD的性能。方法输入预处理模式变革测试复杂性训练数据AUROC亨德里克斯·金佩尔[9]没有没有1标记的ID数据71.6ODIN [16]是的没有3标记的ID数据90.7[26]第二十六话是的合奏15标记的ID数据96.3提出没有微调2标记的ID数据未标记的数据99.6提高了此外，如果它们通过损失梯度向输入添加一些小的扰动，这会增加最大预测softmax得分，则ID样本的增加大于OOD样本的增加。基于这些观察结果，作者首先在高温值下缩放logits以校准softmax分数，然后通过使用损失梯度对其进行扰动来预处理输入，以进一步增加ID和OOD样本的最大softmax分数之间的差异他们的方法优于基线方法[9]。Lee等人[15]和Quintanilha等人[20]从DNN中提取低级和高级特征，以计算用于检测OOD样本的置信度得分。然而，这两种方法需要1,000个标记的OOD样本来训练逻辑回归检测器以实现稳定的性能。一些研究[11，12，27]利用标签之间的层次关系，并通过使用标签层次的不同级别来训练两个分类器以具有不同的通用性（通用分类器和特定分类器）。OOD样本可以通过通用分类器和特定分类器之间的不一致性来检测，但对标签层次的要求限制了这些方法的应用。还有一些关于开集分类的其他研究[1，2，6，21，23，24，30]，涉及与OOD检测非常相似的任务。Bendale Boult [2]提出了一个名为openMax的新层，可以通过从Weibull分布中获得的所有其他类的加权平均值来计算未知类的得分当前用于OOD检测的最先进的方法是由Vyas等人提出的自监督遗漏分类器的集成。[26]第10段。他们将训练ID数据划分为K个分区，并将一个分区指定为OOD，其余分区指定为ID，通过一种新的损失函数（称为边缘熵损失）来训练K个分类器，以提高ID样本的预测置信度，降低OOD样本的预测置信度。在测试期间，除了ODIN [16]中提出的温度缩放和输入预处理之外，他们还使用了这些K与以前的研究相比，我们的方法通过利用未标记的数据进行无监督学习来微调神经网络我们的未标记数据是全部或部分测试数据。3. 方法在本节中，我们提出了我们提出的OOD检测方法首先，我们在第3.1节中描述问题陈述其次，我们在3.2节中说明了我们方法的总体概念。然后，我们的损失函数在第3.3节中解释，我们在第3.4节中详细介绍了我们方法的实际训练过程。最后，我们在3.5节介绍了在推理时检测OOD样本的方法。3.1. 问题陈述我们假设从一组标记的ID图像{Xin，Yin}中绘制的ID图像-标记对{xin，yin}是可访问的，以及从未标记的图像Xul中绘制的未标记的图像xul。ID样本{xin，yin}可以被分类为K个类，这意味着yin∈K。请注意，xul可以是ID 图像或OOD 图像，并且x{xul ，yul}，yul∈/K，因此我们不知道该图像是否不同于以往方法，我们使用xul进行无监督训练，这对于现实世界的应用是现实的。我们的方法的目标是区分图像xul是否来自分布。为此，我们必须训练网络来预测ID样本和OOD样本的不同softmax类概率。3.2. 整体概念Hendrycks& Gempel [9]指出，OOD样本的预测概率往往低于ID样本的预测概率;因此，OOD样本更接近类边界，并且更可能被从ID样本学习的分类器误分类或以低置信度分类（图1的上半部分）。2）的情况。基于他们的发现，我们进一步提出了一个受[22]启发的双头CNN，由一个特征提取器网络E和两个分类器网络F1和F2组成，E接受输入xin或xul，F 1和F 2从E中提取特征并将其分类为K类。分类器网络F1和F2输出一个K维logits向量;然后通过对向量应用softmax函数可以计算类概率。符号p1（y|x）和p2（y|X）是用于表示K维softmax类概率-分别由F1和F2获得的输入x的关系不同-9521图3：我们方法的微调步骤。我们的网络有一个提取器（E）和两个分类器（F1，F2）。步骤A：训练网络在监督下正确分类ID样本。步骤B：分类器学习以无监督的方式最大化差异，这有助于检测OOD样本。从[22]对齐两个数据集的分布以进行域自适应，我们使用不同的训练过程在不同的损失函数上训练网络，以检测两个数据集的分布之间的差异。我们发现，当两个分类器（F1和F2）用随机的初始参数初始化，然后在ID样本上有监督地训练时，它们将具有不同的特征，并对OOD样本进行不同的分类（图的下半部分）。2）的情况。图4示出了在监督地对标记的ID样本训练网络之后，未标记的ID（CIFAR-10）和OOD（TinyImageNet调整大小和LSUN调整大小）样本的两个分类器的输出之间的不一致（L1距离）我们可以证实，大多数OOD样本比ID样本具有更大的差异。4.第一章通过利用这一特性，如果我们能够测量两个分类器之间的不一致性并训练网络以最大化该不一致性，则网络将把OOD样本推到ID样本的流形离散-图4：差异（L1距离）的直方图-在ID样本上训练的两个分类器之间。当网络被训练成最大化这个差异项时，它最大化F1由于OOD样本在ID样本的支持之外，因此两个OOD样本分类器的输出之间的差异将更大。这在第4节中得到了经验证明。3.4. 训练过程正如前面在3.2节中所讨论的，我们需要训练我们的网络来正确分类ID样本并最大化d（p1（y|x），p2（y）|（x）同时。为了实现这一点，我们提出了一个训练过程，包括一个预训练步骤和两个重复微调步骤。预训练步骤使用标记的ID样本{Xin，Yin}来训练分类器。然后，{Xin，Yin}和未标记的sam-plesXul用于训练网络以分离ID和OOD样本，同时在微调步骤中保持ID样本的正确分类。原则上，我们使用测试数据作为未标记数据。此外，未标记的数据可以只是测试数据的一部分。在第4.1.7节的消融研究中，我们在不同大小和类型的未标记数据的情况下进行实验预训练：首先，我们训练网络学习识别特征，并在标记ID样本的监督下正确分类ID样本。网络被训练以最小化交叉熵，如下所示：损失：年，d（p1（y|x），p2（y）|x））来度量两个softmax类概率之间的差异，1Lsup=− |X|Σ Σ2lo g（pi（yin|xin））。（二）输入.因此，我们可以根据两个分类器的输出之间的差异来分离OOD样本和ID样本3.3.离散损失我们将差异损失定义为以下等式：d（p1（y|x），p2（y）|x））= H（p1（y|x））− H（p2（y|其中H（·）是softmax分布上的entropy。inxin∈Xini=1微调：一旦网络收敛，我们就开始微调网络，通过在小批量级别重复以下两个步骤来检测OOD样本。• 步骤A首先，在微调过程中，我们不断训练网络，通过监督学习对标记的ID样本进行正确分类（图中的步骤A3）与当量(2)以维持ID样本的歧管。这一步有助于提高算法的性能9522• 步骤B然后，我们训练网络以无监督的方式增加离散度，以便使网络检测到不具有ID样本的支持（图中的步骤B）（3）第三章。在这一步中，我们还使用标记的ID样本来重塑支撑。我们在标记的ID样本上添加分类损失。在此步骤中，使用标记和未标记样本的相同小批量来更新模型。因此，我们训练网络以最小化以下损失：L=Lsup+Lunsup（3）4.1.1神经网络架构在[16，26]之后，我们基于两种最先进的神经网络架构DenseNet[10] 和 Wide ResNet （ WRN ） [32] 。我们使用DenseNet/Wide ResNet的模块，直到最后一个全连接层之前的平均池化层作为提取器，一个全连接层作为分类器。在第3.4节中提出的预训练步骤中，我们使用随机梯度下降（SGD）来训练DenseNet-BC 300 epoch和WideResNet 200 epoch。学习率从0.1开始，下降了10倍，达到50%1Lsup=−Σ Σ2lo g（pi（yin|（4 ）和75%的培训进度。后在预训练步骤中，我们进一步微调了网络，我不吃|xin ∈ X i n i=1|xi n∈Xini=1Σd（p1（y|xul），p2（y|xul））xul∈Xul=max（m−|X ul|，0）。（五）微调步骤在3.4节中提出，用于10个时期，学习率为0.1，裕度m=1。2检测OOD样品。此外，为了公平比较，我们使用了两个分类器，并计算了这两个分类器的平均得分作为其他方法ODIN [16]和遗漏分类器的集合[26]的最终输出，因为我们的方法有两个如果未标记样本的平均差异大于裕度m，则无监督损失将等于其最小值零;因此裕量M有助于防止过拟合。3.5. 推理在推断时，为了区分分布内和分布外样本，一个简单的解决方案是使用第3.3节中定义的差异，但这个术语不包括每个类别的差异。我们考虑两个分类器输出之间的L1距离。当距离高于检测阈值δ时，我们将样本分配为分布外样本，表示为ΣK|x）− p 2（yi| x）|> δ。|>δ.（六）i=14. 实验在本节中，我们将讨论我们的实验设置和结果。我们描述了一组不同的分布内和分布外的数据集对，神经网络架构和评估指标。我们还通过将其与当前最先进的方法进行比较来证明我们的方法的有效性，从而使我们的方法显著优于它们。我们使用PyTorch 0.4.1运行所有实验[19]。4.1. 基于基准的OOD检测作为 OOD 检测的基准， ODIN [16] 和 Leave-OutClassifiers（EQUAC）[26]引入了几个基准数据集和评估指标来评估OOD检测器的性能。分类器导致了更多的参数。4.1.2配送中CIFAR-10（包含10个类别）和CIFAR-100（包含100类）[13]数据集被用作分布式数据集来训练深度神经网络进行图像分类。它们都包含50，000张用于训练的图像和10，000张用于测试的图像，图像大小为32×32。火车分裂中的图像在我们的实验中被用作X衣服4.1.3分销外我们遵循[16，26]中给出的基准，并在我们的实验中使用1. TinyImageNet（TIN）. Tiny ImageNet数据集[4]包含来自200个不同的类，这些类是从ImageNet的原始1,000个类中提取的 [4] 。 TinyImageNet-crop （ TINc ）和TinyImageNet-resize（TINr）由ei-其他随机裁剪或下采样每个图像的大小为32×32。2. 太阳。大规模场景理解数据集（LSUN）由来自10个不同场景的10，000张测试图像组成不同的场景类别。[31]第30段。与TinyImageNet类似，通过随机裁剪和下采样LSUN测试集，构建了两个数据集LSUN-crop（LSUNc）和LSUN- resize（LSUNr）95233. iSUN。iSUN是SUN的子集[28]，用于视线跟踪，使用网络摄像头部署在AmazonMechan- ical Turk上 [29]。它包含8，925个场景图像，所有图像都被下采样到32 ×32的大小。9524表2：在OOD基准上区分分布内和分布外测试集数据的结果。我们的方法与ODIN [16]和遗漏分类器的包围（Encrimination of Leave-Out Classifiers，缩写为ELEC）[26]进行了比较。如第4.1.1节所述，ODIN [16]和ODIN C[26]被修改为具有两个集成的全连接层以进行公平比较。 ↑表示值越大越好，而↓表示值越低越好。所有值均为百分比。对于每个分布内数据集（测试分割）和每个分布外数据集，随机保留1，000个图像（标记为ID或OOD）用于验证，例如参数调整和早期停止，而包含未标记ID或OOD样本的剩余测试图像用作Xul用于无监督训练和评估。这些数据集作为ODIN [16]代码版本1的一部分提供。4.1.4评估指标我们遵循[16，26]使用的相同指标来衡量我们的方法在区分分布内和分布外样本方面的有效性。TP、TN、FP、FN分别用于表示真阳性、真阴性、假阳性和假阴性。1. 95% TPR下的FPR显示95%真阳性率（TPR）下的假阳性率（FPR）。真阳性率可以通过TPR = TP /（TP+FN）计算，而假阳性率（FPR）可以通过FPR = FP /（FP+TN）计算。2. 检测误差测量最小误分类概率，其通过所有可能的分数阈值上的假阳性率（FPR）和假阴性率（FNR）的最小平均值来计算。1github.com/facebookresearch/odin3. AUROC是受试者工作特征曲线下面积，可以通过FPR对TPR曲线下面积计算。4. AUPR In是精确度-召回率曲线下的面积，可以通过精确度 = TP/ （ TP+FP ）与召回率 =TP/（TP+FN）曲线下的面积来计算对于AUPR In，将分布内图像指定为阳性。5. AUPR Out类似于度量AUPR-In。不同之处在于，分布外图像在AUPR Out中被指定为阳性。4.1.5实验结果结果总结在表2中，该表显示了我们的方法，ODIN [16]和Leave-Out分类器（EQUAC）[26]在各种基准上的比较。此外，CNOC [26]没有iSUN作为OOD数据集的结果，因为他们使用整个iSUN作为验证数据集。我们在ODIN [16]和ODC [26]中实现了两个集成的全连接层，它们的性能几乎与原始论文中的单个分类器（一个全连接表2清楚地表明，我们的方法在所有数据集对的所有神经网络架构中显着优于其他现有的方法，包括ODIN [16]和CNOC [26]（这是五个模型的集合）。OOD数据FPR(95%TPR）↓检测误差↓AUROC↑AUPR输入↑AUPR输出↑奥丁 ELOC 我们奥丁 ELOC 我们 ODIN OKCTINc 3.6 1.50.13.20.7 99.2 99.6TINr 10.1 3.21.76.9 4.02.398.2 99.3LSUNc 6.0 3.40.25.3 4.10.798.7 99.3LSUNr 3.5 1.40.44.2 2.71.199.2 99.6iSUN 5.9 -0.65.3 -1.398.9-TINc 20.6 8.80.210.2 6.60.796.4 98.3TINr 43.1 20.61.9 17.2 10.22.090.7 96.2LSUNc 21.9 16.20.310.1 9.30.695.9 97.0LSUNr 43.2 13.10.424.5 7.70.691.0 97.6iSUN 45.4 -1.317.2 -1.690.5-TINc 16.6 1.50.28.9 3.00.696.9TINr 6.1 5.50.85.5 5.11.898.8 98.9LSUNc 20.3 1.60.0 9.6 3.00.296.4 99.6LSUNr 4.6 0.90.44.7 2.51.799.0 99.7iSUN 3.7 -0.34.3 -1.199.2-TINc 33.38.613.4 6.31.693.9 98.5TINr 35.8 18.9 1.6 15.4 9.1 2.3 92.7 96.8LSUNc 34.9 25.10.515.5 10.61.492.7 96.0LSUNr 34.9 12.80.614.9 7.41.493.1 97.6iSUN 34.1 -0.914.6 -1.493.3-我们99.999.699.999.999.999.999.699.999.999.7100.099.7100.099.899.999.899.699.899.799.6ODIN OKC99.298.398.799.399.096.791.096.491.590.997.398.996.999.199.394.693.293.193.693.999.699.399.399.6-98.496.597.397.9-99.699.099.699.7-98.697.196.597.8-我们100.099.699.999.999.999.999.699.999.999.6100.099.7100.099.899.999.799.599.899.699.5ODIN OKC99.298.198.699.298.996.189.896.089.889.196.598.895.899.099.292.892.292.592.892.599.699.299.399.6-98.396.096.897.3-99.698.899.599.7-98.496.495.597.4-我们99.999.699.999.999.999.999.799.999.999.7100.099.7100.099.899.999.899.699.899.899.7WRN-28-10 WRN-28-10Dense-BCCIFAR-10Dense-BCCIFAR-100CIFAR-100CIFAR-109525(a) 所提出的方法和CNOC的ID和OOD检测分数的直方图[26]。(b) 微调后两个分类器的最大softmax分数的直方图图5：结果的可视化。TinyImageNet-resize，LSUN-resize和iSUN包含完整对象的图像，而不是对象的裁剪部分，被认为更难检测。我们的提案在这些更具挑战性的数据集上显示了高度准确的结果。值得注意的是，我们的方法非常接近于在大多数数据集对上完全区分分布内和分布外样本。如图5a，我们比较了我们基于DenseNet-BC的OOD检测器和基于DenseNet-BC的OOD检测器[26] 当分发中数据为 CIFAR-100 ，分发外数据为TinyImageNet-resize时。这些图表明，与CNOC [26]相比，所提出的方法在所有数据集对上的OOD样本和ID样本之间的重叠要少得多，这表明我们的方法很好地分离了ID和OOD样本。我们的方法的另一个优点是，我们可以使用一个简单的阈值1。0分离ID和OOD样品，如图5a所示。另一方面，很难确定可解释的临界值。我们还在图5b中绘制了两个分类器的Xul的最大softmax得分的直方图图5 b示出了在微调之后，根据样品是ID（CIFAR-100）还是非ID（TINr），Xul为了方便起见，我们使用p1k和p2k分别表示p1和p2对类k的概率输出。差异损失使得OOD样本的另一方面，ID样本表3：CIFAR-100作为ID和TinyImageNet-crop作为OOD的消融研究结果。Xul中的#ID9k5k2k1k#OOD（Xul）9k5k2k1k检测误差（%）0.70.50.91.5ID离散损失0.050.060.080.05OOD离散损失3.083.052.842.68Xul中的#ID9k5k9k9k#OOD（Xul）2k2k1k500检测误差（%）0.30.41.23.8ID离散损失0.620.261.051.08OOD离散损失4.033.903.933.40表4：CIFAR-100作为ID和其他数据集作为OOD的消融研究结果。Xul中的OODTINc+ LSUNcLSUNCOOD测试TINc+ LSUNcTINc检测误差（%）0.2 0.50.7ID离散损失0.03 0.050.04OOD离散损失3.53 3.202.39与maxkp2k相同，这是由于我们在步骤A和Eq.(3)在步骤B中4.1.6限制由于我们的方法需要微调分类器来检测改变决策边界的OOD样本，因此与微调之前的原始分类器相比，我们观察到分类准确度下降了5%这个问题可以通过使用原始分类器对ID样本进行分类来解决，同时增加一些运行时间，并且它仍然比使用五个模型的集成的CNOC [26]更容易接受，这需要更多的运行时间和计算资源。4.1.7消融研究由于我们的方法访问未标记的数据Xul，我们进一步分析了以下因素的影响：X ul的大小和数据平衡。我们使用CIFAR- 100作为ID，TinyImageNet-crop作为OOD，并且我们改变了Xul中的ID和OOD样本的数量以进行无监督训练。结果总结在表3中，表明我们提出的方法在各种Xul设置下都有效。即使当Xul中包含9，000个ID样本和500个OOD样本时，我们的方法仍然具有比[16，26]更好的性能，这意味着我们的方法对Xul的大小和Xul中OOD数据的百分比具有鲁棒性。请注意，我们使用了所有9，000个ID样本和9，000个OOD样本进行测试，这意味着在评估期间包括了完全不可见的样本。X ul. 为了显示我们的方法的有效性，我们还尝试了各种OOD对，9526表5：真实世界模拟中区分分布内和分布外测试集数据的结果。我们的方法是与ODIN [16]和ODNC [26]一致的。↑表示值越大越好，↓表示值越小越好。所有值均为百分比。ID数据集OOD数据集FPR（95%TPR）↓检测误差↓AUROC↑AUPR输入↑AUPR输出↑食品（FOOD-101）非食品（TINc）ODIN OURODIN OURODIN OKC我们ODIN OKC我们ODIN OKC我们48.236.70.122.416.50.285.3 91.5100.092.2 91.3100.076.1 91.9100.0非食品（LSUNc）30.615.90.116.210.10.290.9 96.3100.095.0 95.7100.086.0 96.8100.0时尚（DeepFashion）非时尚（TINc）57.76.10.421.35.21.186.4 98.799.995.9 98.9100.062.5 98.599.7非时尚（LSUNc）35.83.60.214.84.20.792.9 99.199.998.0 99.3100.078.9 99.099.8用于无监督训练和评估的数据集。表4表明，当多个数据集用作OOD时，或者甚至当用于无监督训练的OOD数据集与用于评估的OOD数据集不同时，我们的方法仍然有效。差异损失与检测误差之间的关系。方程中的平均差异损失(1)测试数据集中ID和OOD样本的数量见表3表4分别。这些结果表明，在所有设置中，ID样本的离散损失小于OOD样本。当ID和OOD样本的差异损失差异较大时，检测误差较小，这意味着可以通过两个分类器输出的差异来分离4.2. 基于真实世界仿真的OOD检测由于我们的目标是在现实世界中的应用，我们还评估了我们的方法在现实世界中的模拟的两个情况下，证明我们的方法的有效性。4.2.1神经网络架构与之前的实验一样，我们使用并预训练了与第4.1.1节相同的DenseNet-BC [10]。我们在第3.4节中提出的微调步骤中进一步微调了网络10个epoch，学习率为0.1，边际m=1 .一、2检测OOD样品。4.2.2真实世界模拟数据集考虑到特定领域的应用程序，我们评估了我们的方法的食品和时尚应用程序的两个模拟，因为有服务专注于这些领域。对于食物识别，我们使用FOOD-101 [3]，这是一个真实世界的食物数据集，包含从foodspotting.com收集的101种最受欢迎和一致命名的菜肴。FOOD-101包括用于训练的每类750个图像和用于测试的每类250个图像。FOOD-101 [3]的训练图像没有经过清理，并且包含一些噪声。我们在 FOOD-101 [3] 作为 ID 和TinyImageNet- crop（TINc）/LSUN-crop（LSUNC）作为OOD上评估了我们的方法。对于时尚识别，我们使用了DeepFashion [18]，这是一个大规模的服装数据集。我们使用了DeepFashion[18]的类别和属性预测基准数据集，该数据集由289，222张服装图像和50个服装类组成。我们使用DeepFashion [18]作为ID，TinyImageNet-crop（TINc）/LSUN-crop（LSUNC）作为OOD。我们将FOOD-101 [3]和DeepFashion [18]图像的大小调整为32×32。对于FOOD-101 [3]，原始序列分割用作Xin;来自原始测试分割的1，000个图像用于验证，剩余测试图像用作Xul。对于DeepFashion [18]，最初的火车分裂用作Xin;来自原始验证分割的1，000个图像用于验证，原始测试图像用作Xul用于无监督训练和评估。4.2.3实验结果表5显示了我们的方法，ODIN [16]和CNOC [26]在真实世界模拟数据集上的比较。这些结果清楚地表明，我们的架构在所有数据集上的性能都显著优于其他现有方法ODIN [16]和此外，我们的方法几乎完美地检测非食物和非时尚图像。5. 结论在本文中，我们提出了一种新的方法来检测的分布外的数据样本的神经网络，它利用两个分类器来检测OOD样本，远离支持的ID样本。我们的方法不需要标记OOD样本来训练神经网络。我们不仅在OOD检测基准上，而且在真实世界的仿真数据集上广泛评估了我们的方法。我们的方法在不同的DNN架构上，在各种分布内和分布外的数据集对上，显着优于当前最先进的方法6. 确认这项工作得到了日本JST CREST JP-MJCR 1686和JSPS KAKENHI 18 H 03254的部分支持。9527引用[1] Abhijit Bendale和Terrance Boult。走向开放世界的认可。CVPR，2015。[2] Abhijit Bendale和Terrance E Boult。开放深度网络。在CVPR，2016年。[3] Lukas Bossard、Matthieu Guillaumin和Luc Van Gool。Food-1012014年，在ECCV[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。[5] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。[6] Zongyuan Ge ， Sergey Demyanov ， Zetao Chen ， andRahil Garnavi. 多类开集分类的生成 openmax 。在BMVC，2017年。[7] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在NIPS，2014。[8] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[9] 丹·亨德里克斯和凯文·金佩尔。用于检测神经网络中错误分类和分布外示例的基线。在ICLR，2017。[10] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在CVPR，2017年。[11] 约瑟夫·基特勒和塞姆雷·佐尔。Δ发散：量词不一致性的一种新的决策认知测度。 IEEE Transactions onCybernetics，2019。[12] Josef Kittler，Cemre Zor，Ioannis Kaloskampis，YuliaHicks，and Wenwu Wang.一种新的分类器不一致性检测方法--delta发散的误差敏感性分析。模式识别，2017年。[13] 亚历克斯·克里热夫斯基从微小的图像中学习多层特征。技术报告，2009年。[14] Kimin Lee，Honglak Lee，Kibok Lee，and Jinwoo Shin.训练置信度校准分类器以检测分布外样本。在ICLR，2018年。[15] Kimin Lee，Kibok Lee，Honglak Lee，and Jinwoo Shin.用于检测分布外样本和对抗性攻击的简单统一框架。在NIPS，2018年。[16] Shiyu Liang，Yixuan Li，and R.斯里坎特提高神经网络中分布外图像检测的可靠性。在ICLR，2018年。[17] 刘未央，温延东，余智定，李明，拉吉比丘，宋乐Sphereface：用于人脸识别的深度超球面在CVPR，2017年。[18] Ziwei Liu，Ping Luo，Shi Qiu，Xiaogang Wang，andXiaoou Tang. Deepfashion：通过丰富的注释实现强大的服装识别在CVPR，2016年。[19] Adam Paszke，Sam Gross，Soumith Chintala，GregoryChanan，Edward Yang，Zachary DeVito，Zeming Lin，Al-9528班·德梅森卢卡·安提加亚当·勒勒。pytorch中的自动微分。在NIPS-W，2017年。[20] 伊戈尔·M罗伯托？金塔尼亚E. Filho，Jose 'Lezama，Mauricio Delbracio，and Leonardo O.努内斯使用低阶深度特征统计量检测提交给ICLR，2019年。[21] 伊森·M Rudd，Lalit P. Jain，Walter J. Scheirer和Terrance E.博尔特极值机器。IEEE Transactions on PatternAnalysis and Machine Intell

下载后可阅读完整内容，剩余1页未读，立即下载