没有合适的资源?快使用搜索试试~ 我知道了~
1153代码:针对过度自信问题的倒角分布外示例可可汤*1、丁瑞波苗* 1,2、彭伟龙†1、吴建鹏1、石亚文1、顾兆全†1、田志宏1、王文平3,41广州大学2鹏程实验室3德州农工大学4香港大学摘要对分布外(OOD)样本的过度自信预测是深度神经网络的一个棘手问题。解决OOD过度自信问题的关键是建立OOD样本的子集,然后抑制对它们的预测。本文提出了Chamfer OOD样本(CODEs),其分布与分布内样本的分布接近,因此可以通过抑制对它们的预测来有效地缓解OOD过度自信问题为了获得CODE,我们首先通过对来自不同类别的分布中样本进行切片拼接操作来生成种子OOD示例,然后将它们馈送到Chamfer生成对抗网络进行分布变换,而无需访问任何额外的数据。训练与抑制预测的编码被验证,以减轻OOD过度自信的问题在很大程度上不损害分类准确性,并优于国家的最先进的方法。此外,我们证明编码是有用的,以提高OOD检测和分类。1. 介绍深度神经网络(DNN)已经在分类问题中获得了最先进的性能[16]。由于这些分类系统通常是为静态和封闭的世界[3]设计的,因此DNN分类器即使在现实世界中出现新概念时也会尝试进行预测。不幸的是,这些出乎意料的预测很可能过于自信。事实上,越来越多的证据表明,DNN分类器遭受OOD过度自信的问题,容易被愚弄,从而在OOD样本上生成过度自信的预测[37,13]。广泛采用的解决方案是校准分布内和分布外样本之间的输出,以使它们*联合第一作者。†通讯作者:wlpeng@gzhu.edu.cn,zqgu@gzhu.edu.cn。图1.对于分类任务,(a)OOD样本可以无限地超过ID样本;(b)直觉上,分布更接近ID样本的OOD样本更可能有效地对抗OOD过度自信问题;(c)我们的目标是生成一种有效的面向对象设计实例--代码。易于检测[18,31]。这样,只要OOD检测器能够识别,就可以拒绝对OOD样本的过度自信预测。虽然这些方法是迈向可靠分类的重要步骤,但DNN分类器的OOD过度自信问题仍未解决。此外,如Lee et al.[27],OOD检测的性能高度依赖于DNN分类器,并且如果分类器不能很好地分离预测分布,则它们无法工作。这促使我们通过强制DNN分类器对OOD样本进行低置信度预测来解决OOD过度置信问题。由于具有无限数量,解决OOD过度自信问题的关键是构建OOD样本的子集,然后抑制对它们的预测。Lee等人。[27]使用生成对抗网络[12]来对子集进行建模,然而,需要根据测试分布进行调整。没有从一个精心设计的数据1154符号分布,Hendrycks等人[19]采用辅助数据集模拟子集。然而,这种数据集的最佳选择仍然是一个悬而未决的问题,数据不平衡和计算复杂性的挑战使其效率和实用性降低[30]。相比之下,Hein et al.[17]简单地采用随机噪声和置换图像,并报告了有希望的结果。因此,它把我们的主要议题,这篇论文(见图。1):我们是否可以得到OOD样本的子集,该子集通过抑制对它们的预测来更有效地缓解OOD过度置信问题?直观地,抑制其分布接近于分布中(ID)样本的分布的OOD样本的子集被期望带来更多益处,因为它们更难被DNN区分以进行低置信度预测。在此假设下,我们建议生成OOD样本的子集,其分布接近ID样本的分布,即,有效的OOD示例。在本文中,我们提出了新的倒角OOD的例子(代码),这是一种有效的OOD的例子。此外,我们还设计了一种简单而有效的方法,仅使用训练数据来生成码。具体来说,我们首先通过切片拼接操作生成OOD的种子示例,然后将它们馈送到倒角生成广告网络(Chamfer GAN)中进行分布转换。特别地,倒角距离损失被有意地施加在倒角GAN上以维持种子示例的像素级统计,使得⑶ E保持为00D。我们验证了我们的方法的有效性,抑制预测的代码在训练过程中。实验结果表明,该方法在不影响原始分类精度的前提下,有效地缓解了面向对象的过度置信问题,且性能优于现有方法.我们还证明了代码可以有广泛的应用,例如,以改进OOD检测器和图像分类。总的来说,我们的贡献总结如下:• 我们发现,分布距离是OOD的例子,在减轻OOD过度自信的问题的关键因素,与许多其他因素排除在外。• 我们提出了一种简单而有效的方法,切片拼接操作和倒角GAN生成erate代码,而无需访问任何额外的数据。• 我们验证了CODE在减轻DNN分类器的OOD过度自信问题方面的优越性,而不会损害分类精度。• 我们证明了有效性的代码,提高OOD检测和图像分类。2. 相关工作抑制OOD样本上的预测。为了抑制对OOD样本的预测,Lee et al.[27]训练了一个分类器和一个GAN,GAN对分布样本的边界进行建模,并强制分类器具有GAN样本的置信度较低。然而,对于每个测试分布,他们使用来自该外分布的样本来调整分类器和GAN在不直接访问测试分布的情况下,Hendrycks等人。[19]使用与测试时间数据不相交的辅助数据集来模拟它。Meinke等人[34]明确地集成了生成模型,并可证明所得到的神经网络在远离训练数据的情况下产生接近均匀的预测。然而,为了抑制预测,他们还采用了辅助数据集。 由于辅助数据集带来的数据不平衡和计算复杂性的挑战[30],Hein et al.[17]提出简单地考虑随机噪声和置换图像作为OOD样本。我们的目标还在于只使用训练数据生成OOD样本不同的是,我们有意生成有效的OOD示例,从而获得更好的结果。此外,我们的方法不会损害ID样本的分类精度,这是不能通过使用辅助数据集来保证的。OOD检测。Hendrycks等人[18]建立了OOD检测的第一个基准,并评估了简单的基于阈值的检测器。最近的工作通过使用ODIN评分[31,23],Mahalanobis距离[28],能量评分[32],多个分类器的集合[42,48],残余流[51],生成模型[38],改进了OOD检测。自我监督学习[20,35]和gram矩阵[39]。所有上述方法检测测试样品是否来自分销中(即,通过分类器的训练分布)或OOD,并且通常与原始的n类别分类器组合来部署以处理现实世界中的识别[4,46]。不同的是,我们的动机是强制执行原始的n-类别分类器,使低置信度的预测上OOD样本固有的。置信度校准。预测置信度的校准传统上被认为是基于真实输入分布。Gal和Ghahramani [11]采用蒙特卡罗dropout方法,通过将DNN与贝叶斯模型交织,估计单个最佳Lakshmi- Narayanan等人[26]使用网络的集合来获得组合的不确定性估计。Guo等人[15]利用温度缩放来获得校准的概率。不同的是,我们的工作重点是校准OOD样本预测的置信度。此外,已验证输入分布的置信度校准模型不能用于分布外[29]。数据增强。数据增强最初是为了通过合成标签保留图像来防止网络过拟合[25,10]。另一种类型是通过向训练图像添加对抗性噪声来提高对抗性鲁棒性或分类性能[33,44]。不同的是,我们抑制了对OOD增强图像的预测,而其方法中的增强ID图像以与原始训练数据1155一我是一个一A\II→{}{}A\I×·我S不×拼接([p 0,p 1,...,pkk −1minx−x¯2+minx−x¯23. 有效的OOD示例初步的。本文考虑了多类别分类问题中的背景.设为所考虑的所有数字图像的集合,并且设 为 可 以在1、2、……中被分配标签的所有分布中样本的集合。K. 然后是所有OOD样本的集合。具体来说,我们有一个分类器f:1,2,…K,它可以对中的任何图像给出预测。事实上,分类器f可以对图像进行高置信度的预测。.当DNN分类器面对开放集世界时,这是棘手的。由于OOD样本可以无限多,因此将它们全部抑制是不切实际的。因此,我们的目标是收集OOD样本的子集,这些样本通过抑制对它们的预测来有效的OOD示例。定义1有效的面向对象设计实例。给一个小常数δ,有效的OOD示例x是S中的任何图像图2.通过切片和拼接(k=3)生成种子示例其中,从具有不同类别的图像(由c()表示)切片的具有均匀大小的k个补丁被拼接成具有与x相同大小的图像(参见图2)。特别地,要求这些块不来自具有相同类别的图像。由于所得到的种子示例在视觉上不属于任何类别(参见图1B)。2),因此是OOD示例。请注意,我们只提供了两个简单的操作来拼接图像块。更复杂的操作(例如,考虑角度、尺度和旋转)可以是前-满足S eo{x∈A\I|D(Pl,P60)<δ},eo很容易处理,但超出了本文的范围4.2.生成代码其中PI是 ,Peo是0之间的距离,并且D两个分布。由于Peo接近于分布样本Pl的Peo ,因此难以区分它们。因此,抑制有效的OOD示例有望带来比抑制其他更容易被区分的。4. 方法在本节中,我们将介绍仅使用训练数据获得有效OOD示例的方法。特别是,我们开始生成种子的例子,是OOD,然后将这些种子转换成倒角OOD的例子- ples(代码),通过强制执行的分布限制。最后,我们将演示如何通过使用CODE进行训练来缓解OOD过度自信问题。4.1. 生成种子示例我们通过两个关键操作从具有多个不同类别的图像中拼接局部补丁来生成种子示例。切片操作:我们将种子样本的分布转换为训练数据的分布,通过将它们馈送到一种新的具有主要的像素级统计的Chamfer 生 成 对 抗 网 络 ( Chamfer GAN ) 中 来 生 成CODE。在下文中,我们将首先描述Chamfer GAN的体系结构设计,然后讨论为什么Chamfer GAN生成的代码是有效的OOD示例。4.2.1倒角GAN对于倒角GAN的设计,我们采用流行的自动编码器[22]作为我们的骨干,见图。3.第三章。给定一个种子示例x'作为输入,编码器Enc将其投影到高维紧凑空间中,并且解码器Dec对投影的特征进行解码以重构CODEx' 。 特 别 地 , 我 们 采 用 WGAN [14] 中 的Wasserstein距离损失来转换数据分布,并采用Chamfer距离损失[5]来保持像素级统计。Wasserstein距离损失为了执行x的分布(即, Px()接近于训练数据x(即,Px),我们采用与WGAN [14]中相同的对抗损失,为了清楚起见,省略了梯度惩罚项,定义为:XXx{p0,p1,…pk*k−1}=OPslice(x,k)(1)其中x是训练集中的图像,并且px是x的第t个片段。通过这种操作,每个图像被划分成k k个数量的补丁相等(见图1)。2)的情况。拼接操作:LWD=Ex<$Px[Dis(x)]−Ex<$Px<$[Dis(x<$)](3)倒角距离损失。为了便于在重建过程中保持像素级统计,我们采用倒角距离进行限制,其被定义为:x=OPx0x1xk<$k−1],k)∫Σ Σ,L圣 (c(x0)== c(x1)==…== c(xk*k−1))=假(二)CDx¯Px¯i∈x我x<$j∈x<$J2x<$j∈x<$我i∈xJ2(四)=E1156−KsupK我I=K图3.Cham f erGAN的框架工作:给定一个种子示例x作为输入,自动编码器主干输出CODEx®;它由用于维护像素级统计的Chamfer距离损失和用于将分布Px®转换为Px的Wasserstein 距离损失监督。x¨=Dec(Enc(x¨))(5)其中,Px′是种子示例x′所在的分布,x′j和x¨i表示x′和x¨中的像素el。请注意,我们不要求x¯和x完全相同,这是由传统自动编码器中的L2损失强制执行的。相反,倒角距离损失强制X '中的每个像素el具有由Enc-Dec输出的X'中的相应像素el,但是可以在不同的位置处,即具有重新布置的像素。在那里-因此,保持像素级统计。通过结合上述两个损失函数,ChamferGAN可以将x的分布转换为接近训练数据x的分布,同时保持像素级x的统计。因此,最终损失函数如下:Lx¯→x=αLWD+LCD(6)其中α是由1设置的标量权重。默认情况下为0e 5。对于Chamfer GAN的训练,我们以WGAN中的迭代方式训练分类器Dis和Enc-Dec。请注意,倒角距离损失对于倒角GAN至关重要具体地,倒角距离损失限制沿着特定特征空间的分布变换,该特定特征空间的对应图像空间是通过将种子示例馈送到倒角GAN中,获得了保持种子示例的像素级统计的CODE,但是在更接近于训练数据的分布的分布内。4.2.2关于CODEs的由于在Wasserstein距离损失的监督下,编码的分布被转换为接近训练数据的分布。此外,由于以下原因,代码仍然是面向对象设计:1)原始为OOD的种子示例的像素级统计由倒角距离保持2)WGAN的训练将分布转换为与训练数据的分布相同本来就很难,并且在Cham- fer距离损失的限制下更是难上加难总的来说,代码是有效的OOD示例。请参阅Sec。5.1用于验证。4.3.使用CODE对抗OOD过度自信CODE可以用于通过抑制对每个类别的预测来缓解OOD过度置信问题,即在所有类别上强制平均置信度(即,1)具有以下损失函数:L(x)=Σ1logV(x)(7)i=1其中,K是类别数,Vi(x)是x在类别i上的归一化预测置信度。对于训练,我们采用来自用交叉熵损失监督的原始训练集的50%的图像,而其他的是用Eqn监督的编码。7 .第一次会议。5. 实验本部分包括四个部分。首先,我们分析了代码的特点。其次,我们广泛地评估CODE缓解OOD过度自信问题,与国家的最先进的方法进行比较。第三,我们展示了代码的应用,例如,用于改进OOD检测和分类。最后,我们报告消融研究。5.1. CODEs的特点实施. 我们将k设置为2以生成种子示例。Chamfer GAN中的32×32和28×28图像的自动编码器采用四个卷积层将图像投影到2×2的分辨率,通道数为512。1157×图4. (a)行-1:来自CIFAR-100的原始图像;第2行:种子实例;第3行:第2行对应的CODE。(b)原始图像(2,3,6和10类),种子示例和CIFAR-10上的CODEs的t-SNE嵌入。FID种子示例代码50.4936.5348.8336.5383.5177.94MMC(%)起源种子示例代码98.4091.2899.4272.5338.9072.3774.8440.2078.74表1.用FID测量种子样本和编码样本与原始数据集的分布距离,用平均最大置信度(MMC)测量其预测置信度而解码器与编码器是对称的,除了用转置的卷积替换卷积。对于224 224个图像,我们采用[2]中的架构。我们在CIFAR-10和CIFAR-100上训练了批次大小为32的倒角GAN,用于 1800个epoch,在SVHN,MNIST,FMNIST和CINIC-10,以及ImageNet上的50个epochs。优化器和学习率与WGAN [14]中相同。详情请参阅补充资料。可视化。图4(a)可视化了来自CIFAR的种子示例、对应的CODE和原始图像。100.从视觉上看,代码比种子示例更自然,但我们不能在它们上归纳任何类别,表明它们是OOD示例。图4(b)可视化了原始图像,种子示例和CIFAR-10上的CODE的t-SNE [41具体来说,嵌入基于ResNet-18的最后一个卷积层输出的特征实验结果表明,与种子样本相比,编码样本的分布更接近原始图像的聚类分布,验证了Chamfer GAN在分布变换中的有效性。分布距离和预测置信度。我们报告了CIFAR-10、CIFAR-100和SVHN中种子示例、CODE和原始图像之间的分布距离,通过表中的Fre' chet初始距离(FID)[21]测量1.一、可以看出,CODE与原始图像之间的分布距离远小于种子样本之间的分布距离,验证了分布转换过程。特别地,由于与原始图像的分布更接近,所以由ResNet-18以更高的置信度预测CODE。5.2. 用代码减轻面向对象设计的过度自信数据集。使用各种数据集:CIFAR-10、CIFAR- 100[24]、GrCIFAR-10(灰度CIFAR-10)、SVHN [36]、LSUN CR ( LSUN 的 课 堂 子 集 [47] ) , MNIST ,FMNIST [43],EMNIST [7],Noise(即,如[34]中随机置换来自训练集的图像的像素),统一形式(即,如[34]中的[0,1]d框上的均匀噪声),对抗性噪声和对抗性样本跟随[0,1] d框。实验设置为[34]。对抗性噪声是通过在噪声图像的邻域中主动搜索产生更高预测置信度的图像来生成的,而对抗性样本是在分布图像的邻域中生成的,但不在数据流形中,如下[17]。对于OE和CCUd,我们采用了8000万个微小图像[40],其中CIFAR-10和CIFAR-100中出现的所有示例都被删除作为辅助数据集,如[34]所示。方法. 对八种方法进行了评估和比较:基线,CEDA[17],ACET [17],OE [19],CCU的两个变体[34](采用噪声的CCU和采用辅助数据集的CCUd [19]),我们的和我们的++。特别地,Ours++是Ours的增强版本,选择最坏的情况,即,具有最大的预测置信度,在类似于ACET [17]中的CODE的邻域中。Setup. 我 们 在 MNIST 和 FMNIST 上 训 练 LeNet , 而ResNet-18用于CIFAR-10,CIFAR-100和SVHN,然后在相应的测试集上评估它们以报告测试误差(TE),并在分布内外数据集上报告平均最大置信度(MMC)[34]。与现有技术方法的比较。Tab中的结果。2显示Ours和Ours++在大多数情况下在CIFAR-10、CIFAR-100和SVHN上表现最好,而不考虑OE和CCUd。由于训练抑制了对大的8000万个微小图像的预测[40],因此其具有与OOD数据集类似的图像风格(例如,CIFAR-10、CIFAR-100和SVHN)、OE和CCUd获得最低的MMC。然而,可以看出,辅助数据集对分布中样本的预测带来不利影响,例如,CIFAR-100对CCUd的预测置信度降低33%,因此导致CIFAR-10CIFAR-100SVHN1158列车组度量测试集基线CEDAACETCCUS我们我们的++OECCUD使用辅助数据集✓ ✓CIFAR-10TECIFAR-105.385.385.615.565.585.525.756.01ID MMCCIFAR-1097.0497.5196.6097.2797.1596.7788.8780.26SVHN73.3872.4670.6974.1362.3747.1810.4810.41CIFAR-10079.4780.5479.2880.8370.1459.5221.6216.98LSUN CR73.3875.1575.8975.9564.1153.6710.5610.38OOD MMC噪声69.2410.3610.6277.8510.2710.8913.3710.36均匀99.4973.2310.0010.0065.3010.0010.3510.00Adv. 噪声100.0098.5011.2010.0115.8010.29100.0010.00Adv. 样品100.00100.0063.30-54.4027.79--CIFAR-100TECIFAR-10023.3423.5424.0124.1323.2223.5525.5126.53ID MMCCIFAR-10080.5481.8580.6481.7882.2180.7759.5547.29SVHN61.1557.9139.5451.0244.3432.503.962.26CIFAR-1052.1355.2354.3055.5852.8249.1015.568.49LSUN CR53.1951.4154.2252.3451.3348.013.101.60OOD MMC噪声61.4057.8919.2757.6719.9614.9210.947.84均匀59.6234.051.001.001.771.002.031.00Adv. 噪声100.0098.501.301.006.501.00100.001.00Adv. 样品99.9099.9086.30-12.904.30--SVHNTESVHN2.892.883.053.073.022.844.053.05ID MMCSVHN98.4798.5898.5298.6298.4598.6996.9398.07CIFAR-1071.9471.7069.2868.4061.0950.7810.1410.14CIFAR-10071.7671.0468.7868.6354.0953.4610.1610.20LSUN CR71.2771.0662.1865.7836.4529.9810.1410.09OOD MMC噪声72.0068.8739.8963.4335.5833.5335.5748.81均匀67.8040.0610.0010.0010.3410.0010.1010.00Adv. 噪声100.0094.6010.1010.0024.3011.00100.0010.00Adv. 样品100.0099.5036.90-38.7011.40--MNISTTEMNIST0.510.500.500.490.470.510.750.51ID MMCMNIST99.1899.1699.1599.1698.9999.3499.2799.16FMNIST66.3152.8828.5863.9335.3220.9834.3825.99EMNIST81.9581.8177.9283.0169.5447.7888.0077.74GrCIFAR-1046.4119.1010.1010.0210.4310.0011.5010.00OOD MMC噪声12.7012.0910.3610.5910.5110.0010.2210.34均匀97.3310.0110.0010.0010.0110.4010.0110.00Adv. 噪声100.0014.7016.2010.0012.5010.00100.0010.00Adv. 样品99.9098.2085.40-63.8045.20--FMNISTTEFMNIST4.775.014.784.854.564.796.124.96ID MMCFMNIST98.3898.2498.0398.3298.4498.3598.3098.46MNIST71.3273.4473.7071.2569.6761.4780.3470.54EMNIST65.0167.3466.6368.6862.9759.1336.6631.62GrCIFAR-1086.1769.6972.9056.3366.8863.2410.2210.09OOD MMC噪声67.7257.4016.7556.8414.7113.0310.4510.25均匀77.7060.0810.0020.0010.0010.0673.1610.00Adv. 噪声100.0022.3016.7810.0014.9910.18100.0010.00Adv. 样品100.0099.6790.56-70.1459.43--表2.我们在五个数据集上训练了八个模型,并在原始数据集和OOD样本上进行了评估,包括其他数据集,Noise,Uniform,Adversarial(Adv.)噪声和对抗性样本。我们报告所有模型的检验误差(TE)↓,显示分布内和分布外样本的平均最大置信度(MMC)(例如, ID MMC ↑和OOD MMC ↓)。所有值均以百分比(%)表示。导致更差的分类性能,例如,3.2%的较大测试误差。此外,对于与辅助数据集差异较大的数据集,OE和CCUd与Ours和Ours++相当甚至更差,例如,关于FMNIST和MNIST。特别是,ACET表现优于CEDA,验证了搜索更难考试的策略的有用性在原来的一个街区里。我们想指出的是,我们的方法是可比的ACET,即使没有挑选更难的例子,表明代码比随机噪声更有效。通过将相同的策略应用于我们的,我们可以看到MMC值的显着下降。对于对抗性噪声和对抗性样本,我们可以看到CEDA和OE在大多数情况下失败1159−↓图5.由FID测量的CODE和训练数据之间的分布距离与原始数据集(Origin)和各种OOD数据集上的MMCs,由在CIFAR-100上训练的ResNet-18制作的噪声和均匀。ACET可以处理部分样本,而我们的++,CCU和CCUd表现最好。总体而言,CODE在缓解OOD过度自信问题方面是有效的。分布距离与MMC。我们研究如何分布距离之间的代码和分布数据会影响所带来的好处,抑制代码对减轻OOD过度自信问题。由于我们采用了相对较高的权重1。0到倒角距离损失,而低重量1。对于Wasserstein距离损失,分布变换可以在训练过程中逐步进行为了便于公平比较,我们选择在CIFAR-100上训练阶段不同时期保存的Chamfer GAN模型,包括第200、400、800、1200、1600和1800个模型,然后分别对上述六个Chamfer GAN输出的CODE进行抑制预测训练ResNet-18模型。图5示出了MMC与FID分数大多正相关,并且OOD数据集上的相关性比噪声和统一形式上的相关性更强,从而验证了与分布内样本的较小分布距离对于有效的OOD示例是至关重要的我们还报告了图6中六个不同ResNet-18模型的分布样本的MMC。5,并且可以看到MMC大多保持不变。事实上,OE也提到了分布距离的影响[19]。然而,由于不同辅助数据集之间的差异RGB值,局部纹理,因此不适合断定哪个因素影响结果。随后,我们对种子样本的分布进行了Chamfer距离损失的变换,以保持低级别的像素统计,从而可以排除许多其他因素的影响。最大置信度的可视化。我们看到了-使用图中的对数直方图,通过在CIFAR-100上训练的ResNet-18,对LSUN CR和SVHN六、可以看出,通过采用我们的方法,由Baseline得到的置信分布被拉到左边,具有高置信度的样本的数量大大减少。分销中置信度校准。我们报告了ResNet-18训练的预期校准误差(ECEs)[15]图6.在各种数据集上为CIFAR-100训练的ResNet-18的最大置信度值CIFAR-100TT前TT后TT前TT后不含我方0. 033 0. 031 0.081 0. 073包括我们的表3. CIFAR-10和CIFAR-100的预期校准误差(ECE),带和不带我们的和温度调谐(TT)。FPR95 ↓AUROC ↑AUPR ↑OE8.5398.3099.63CIFAR-10OE+代码8.0199.0799.79ES3.3298.9299.75ES+代码3.2499.0199.78OE58.1085.1996.40CIFAR-100OE+代码56.5487.9697.38ES47.5588.4697.12ES+代码45.8989.0397.95表4. CODE对OE [19]和能量评分(ES)[32]的改进。所有值均以百分比(%)表示。在CIFAR-10/100上进行测试,并在选项卡中的相应测试集上进行测试。3 .第三章。可以看出,在应用我们的方法后,ECE减少,而温度调节在校准分布数据的预测置信度方面更有效。5.3. 代码的应用5.3.1改进OOD检测评价战略与方法我们遵循[18]中的评估策略,并使用三个常用指标:当分布内示例的真阳性率为95%时OOD示例的假阳性率(FPR 95),接受者操作特征曲线下的面积(AUROC)和精确度-召回曲线下的面积(AUPR)。方法论 我们将原始的DNN分类器替换为通过抑制对CODE的预测而训练的分类器。改进OOD探测器。我们首先评估使用的OE [19]和Energy Score [32]的8000万张微小图像[40]作为辅助数据集。具体来说,我们在CIFAR-10和CIFAR-100 [ 24 ]上训练WRN-40-2[ 49],然后在六个数据集上进行测试:Tex- tures [6]、SVHN 、 Places 365 [50] 、 LSUN-Crop [47] 、 LSUN-Resize [47]和iSUN [45](在[32]之后)。 的平均1160↓基线基线+编码CINIC-10ImageNetResNet-32 73.82ResNet-56 74.09ResNet-18 69.76ResNet-50 76.1574.7775.3871.0677.12CIFAR-100C I F A R -10SVHN表7. Chamfer GAN的消融研究,平均MMC(%)↓在表1中列出的OOD数据集上测试。二、K2468MMC43.6447.8946.3248.39表 5. 在 AUROC 度 量 ( % ) ↑ 中 , CODEs 对 ODIN [31] 和Mahalanobis距离(Maha)[28]的改进。图7.四种方法在CIFAR-10上进行语义OOD检测任务[1]的PR曲线,其中一个类为OOD。表6.CINIC-10和ImageNet上的Top-1 Acc(%)↑结果为Tab。4表明在所有三种度量上的性能我们还评估了不需要辅助数据集的ODIN [31]和Mahalanobis距离(Maha)[28]的改进。Tab中的结果。5表明ODIN和Maha都得到了改善。总体而言,可以采用CODE来改进OOD检测器。检测语义OOD示例。我们评估的情况下,分布样本不仅显着超过OOD的,但也有显着的语义转移[1]。具体来说,我们为CIFAR-10训练两个分类器,每次保持一个类(例如,plane,cat),然后对检测作为OOD样本的保持类的能力进行评分。精确度-召回率曲线如图所示7 .第一次会议。可以看出,采用辅助数据集的OE[19]和CCUd [34]损害了语义OOD检测的性能,因为对分布样本的预测被抑制,如表1所示2,而使用代码是有益的。5.3.2提高分类我们通过在CINIC-10 [8]和ImageNet [9]上评估ResNets来证明CODE可以改善分类。特别是,在[44]之后采用了一个单独的CODE批处理规范,这对于一致的改进至关重要表8.在表1中列出的OOD数据集上测试的ResNet-18(在CIFAR- 100上训练)的平均MMC(%)。二、是的。Tab中的结果。6表明,代码带来了1- 2%的改善的前1的准确性。 原因可能是在多个类别的决策边界之间对CODE进行采样,因为CODE与来自不同类别图像的补丁拼接,因此可以帮助防止多个不同类别之间的混淆。5.4. 消融研究Setup. 我们训练不同的ResNet-18模型,在使用/不使用Chamfer GAN生成的CODE上进行抑制预测,并在切片拼接操作中使用不同的ks2在表1中报告平均MMC结果7和Tab。8. 倒角GAN. 可以看出,ResNet-18 mod- 使用烧蚀倒角GAN训练的元素仍然提高了性能,因为种子示例的分布最初接近于具有如表1中所报告的新颖切片拼接操作的ID分布。二、然而,性能比使用ChamferGAN的性能差得多,验证了分布变换的重要性。K片可以看出,k=2在Tab中带来最佳性能。8,因为较大的k可能为Chamfer GAN带来太多的灵活性以维持像素级统计。6. 结论本文提出了CODEs,一种有效的OOD的例子,可以用来减轻OOD过度自信问题固有的抑制预测。生成CODE的关键思想是通过Chamfer GAN限制从训练数据生成的拼接OOD示例的分布,使其接近分布样本的分布。大量的实验验证了有效性的代码和他们的有用性,提高OOD检测和分类。我们希望代码激励更多的研究,以减轻OOD过度自信的问题。鸣 谢 。 本 工 作 得 到 了 国 家 自 然 科 学 基 金 ( 62102105 ,U20B2046,61902082)、广东省基础与应用基础研究基金(2020A1515110997)、广州市科技计划(202002030263,202102010419 ) 、 广 东 省 高 等 教 育 创 新 集 团( 2020KCXTD007 ) 和 广 州 大 学 人 才 培 养 项 目(XJ2021001901)。CIFAR-100SVHN奥丁ODIN+代码MahaMaha+代码CIFAR-1095.9196.9097.1097.34CIFAR-10094.8297.1296.7097.08LSUN CR96.5296.9697.2297.97噪声82.7483.0198.0097.99均匀97.9097.9497.8198.01SVHN81.3584.9177.5279.63CIFAR-1079.5083.4859.9464.74LSUN CR81.4182.1079.7382.99噪声76.8476.9290.6190.98均匀93.5694.8794.3795.90基线78.9957.5070.95不带倒角GAN50.2358.0859.67带倒角GAN43.6454.4451.621161引用[1] Faruk Ahmed 和Aaron Courville 。 检测 语义 异常 。在AAAI,第34卷,第3154-3162页,2020中。8[2] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet:用于图像分割的深度卷积编码器-解码器架构。IEEE TPAMI,39(12):2481-2495,2017。5[3] Abhijit Bendale和Terrance Boult。走向开放世界的认可。在CVPR,第1893-1902页,2015年。1[4] Abhijit Bendale和Terrance E Boult。开放深度网络。在CVPR,第1563-1572页,2016年。2[5] 古尼拉·博格福斯分层倒角匹配:一种参数边缘匹配算法。IEEE TPAMI,10(6):849- 865,1988. 3[6] Mircea Cimpoi , Subhransu Maji , Iasonas Kokkinos ,Sammy Mohamed,and Andrea Vedaldi.描述野外的纹理。在CVPR,第3606-3613页,2014年。7[7] Gregory Cohen、Saeed Afshar、Jonathan Tapson和AndreVan Schaik。Emnist:将mnist扩展到手写信件。在IJCNN中,第2921-2926页。IEEE,2017年。5[8] Luke N Darlow,Elliot J Crowley,Antreas Antoniou,and Amos J Storkey. Cinic-10不是imagenet或cifar-10。arXiv预印本arXiv:1810.03505,2018。8[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. Imagenet:一个大规模的分层图像数据库。CVPR,第248-255页,2009。8[10] Terrance DeVries和Graham W Taylor。改进的卷积神经网 络 的 正 则 化 。 arXiv 预 印 本 arXiv : 1708.04552 ,2017。2[11] 亚林·加尔和祖宾·加赫拉马尼。Dropout作为贝叶斯近似:在深度学习中表示模型的不确定性。在ICML,第1050-1059页中。PMLR,2016. 2[12] Ian J Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,Bing Xu,David Warde-Farley,Sherjil Ozair,Aaron CCourville , and Yoshua Bengio. 生 成 性 对 抗 网 。NeurIPS,2014。1[13] Ian J. Goodfellow,Jonathon Shlens,Christian Szegedy.解释和利用对抗性的例子。20
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功