基于生成分类器的可信图像分类：提高可解释性和鲁棒性，为ImageNet挑战中的复杂视觉任务带来巨大潜力

173 浏览量更新于2024-01-22 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

2971基于生成分类器的可信图像分类Radek Mackowiak*海德堡大学视觉学习实验室乌尔里希·柯特海德堡大学视觉学习实验室林顿·阿迪佐内 *海德堡大学视觉学习实验室卡斯滕·罗特海德堡大学视觉学习实验室∗平等贡献摘要随着深度学习系统的成熟，可信度对于模型评估变得越来越重要。我们将可信赖性理解为可解释性和鲁棒性的结合。生成式分类器（GC）是一类很有前途的模型，据说可以自然地实现这些特性。然而，这主要是在过去的MNIST和CIFAR等简单数据集在这项工作中，我们首先开发了一个架构和训练方案，使GC能够在实际计算机视觉的复杂性更相关的水平上运行，即ImageNet挑战。其次，我们展示了GC在可信图像分类方面的巨大潜力。与前馈模型相比，可解释性和鲁棒性的某些方面得到了极大的改善，即使GC只是简单地应用。虽然不是所有的可信度问题完全解决，我们观察到，GC是一个非常有前途的基础上进一步的算法和修改。我们发布我们的训练模型供下载，希望它可以作为其他生成分类任务的起点，就像预先训练的ResNet架构用于区分分类一样。代码：github.com/VLL-HD/trustworthy GC1. 介绍生成分类器（GC）和判别分类器（DC）代表了解决分类任务的两种截然不同的方式简而言之，虽然标准DC直接对给定输入的类别概率进行建模，|图像）（例如softmax分类），生成分类器（GC）采取相反的方法：它们对输入图像的可能性进行建模，以每个类别p（图像）为条件|类）。然后通过找到图像具有最高可能性的类别来执行实际分类。迄今为止，GC的应用仅限于图1：生成分类器的一个优点的例子：DC的类后验总和总是1，而GC的似然性没有这个限制，构成了本质上更多的信息输出。例如，GC可以显示预测是不确定的，因为输入与两个类都一致，还是两者都不一致。简单的数据集，如MNIST、SVHN和CIFAR-10/100。对于任何实际的图像分类任务，DC是专门使用的，由于其出色的判别性能。原则上，GC比DC具有各种优势，这与术语可信度一致。与[24]大体一致，我们将可信性理解为可解释性和鲁棒性的结合。可解释性：基于深度神经网络的DC因其“黑匣子”而臭名昭著，这推动了可解释AI领域的许多发展。在[18]中列出的分类中，最常用的算法属于I类或II类：事后方法，可视化网络如何处理信息（I），或显示其内部表示（II）。解释可以根据所选择的方法而变化，并且不能保证结果忠实地反映DC在内部所做的事情。相比之下，GC让人想起费曼由于GC能够对输入数据本身建模，而不仅仅是对类后验模型建模，判别分类器生成分类器q（Y类|图像X）q（图像X|类Y）在类上求和为1，在图像上积分为1(a)正常输入猫狗猫狗(b)无关输入0.014猫狗0.017猫狗0.420.586.16.30.450.552972从根本上说，有更多的信息输出。例如，GC允许我们判断两个类别之间的决策是不确定的，因为输入与两个类别都一致，或者两者都不一致（见图1）。此外，大多数GC具有可解释的潜在空间，具有有意义的特征，允许实际的决策过程直接可视化，而无需事后技术。因此，可以认为GC属于可解释性分类的第III类[18]，即。这些方法本质上以一种可解释的方式工作，而不依赖于额外的算法。鲁棒性：关于基于深度学习的分类系统的实际使用的第二个大问题是它们的鲁棒性，这取决于上下文可能具有不同的含义。特别是，在数据集偏移[51，39]和精确校准后验[3]下的泛化方面，GC被认为优于DC。此外，GC的一大优势是它们能够以自然的方式明确识别异常输入，从而指示何时不应信任决策。此外，GC被发现对对抗性攻击更具鲁棒性[33]并允许其显式检测[17]。目前尚不清楚GC是否也可以在更复杂的任务中表现出这些优势，同时在任务表现上保持对DC的竞争力。例如，[15]的作者发现，虽然GC可以成功地检测到受到恶意攻击的MNIST图像，但对于CIFAR- 10数据集来说已经失败了。[34，30]的作者观察到，其他形式的OoD数据的检测对于自然图像也以各种方式失败。在[16]中，作者对GC是否可以用于高维输入数据表示怀疑。鉴于这一背景，我们的工作做出了以下贡献：（i）我们设计并训练了一个GC，该GC在ImageNet数据集上展示了与实际图像分类相关的水平。（ii）我们展示了GC特有的各种原生可解释性技术（iii）我们从鲁棒性的角度来考察模型。总的来说，我们发现我们的GC在可信度方面比可比较的DC工作得更好。然而，我们确实观察到，先前关于数据集转移下的卓越泛化能力[51]和对抗性攻击的免疫力的[41]不适用于ImageNet数据集。对于鲁棒性的其他方面，我们的GC显示了一些很大的好处，例如自然检测OoD输入和对抗性攻击。2. 相关工作在深度学习革命之前的几年，[37，51，39]等作品已经从理论和实验上比较了GC与DC的属性，一致认为GC更强大，更可解释。像[6，5，54]这样的作品提出了将GC和DC的各个方面结合起来的模型，以达到与每个极端相比更有利的权衡。然而，所有这些工作考虑的都是简单的问题，并且具有无法比拟的任务性能在2010年代，基于深度学习的DC提供了大量的学习资源，GC变得很少使用。作为最近工作的一个例子，[16]研究了在自然图像上训练的基于归一化流的GC作者发现，天真训练的GC模型实现了非常差的分类性能，并认为这是由于一些模型属性没有被最大似然训练正确惩罚后来，[3]提出可以通过使用信息瓶颈损失函数进行训练来避免这个问题。[32]的作者修改了这个问题，并在以前从标准前馈网络中表现出来的特征上训练GC。对于所有这些作品，使用的最复杂的数据集是CIFAR-100，分辨率为32× 32像素。所谓的混合模型[38]在实践中更为成功。在这里，通常针对边缘p（图像）涉及似然估计方法，而实际分类仍然以区分的方式执行，使用两个任务之间的值得注意的例子是[29，14，11，35，20]。它们与GC有一些根本的区别，例如：条件似然不直接建模，潜在空间没有显式的类结构。关于生成模型的OoD检测，[34]和后来[30]的作者观察到，在自然图像上训练的似然这一问题的解决，例如。通过[36，10，43，45，55]，其中引入了不同的OoD分数来纠正这些缺点。这些工作只考虑无条件的似然模型OoD检测，而一个单独的分类器仍然需要执行实际的任务。GC将这两个步骤结合到一个模型中，简化了过程，同时可能改善OoD检测。最近还对GC进行了对抗性防御检查[41，17，33]。虽然这些工作突出了GC的潜力，但它们仅限于MNIST和SVHN等简单数据集，并且不能扩展到具有更多功能的问题比大约10类，或自然图像[15]。3. 方法3.1. 可逆神经网络虽然VAE已被用作生成分类器并取得了一定的成功[41，17，33]，但由于其精确的似然估计能力，可能最自然的选择是归一化流[13]。在规范化流中使用的网络是所谓的可逆神经网络（INN），这是一类满足以下条件的神经网络架构：（i）网络通过构造（本质上，光滑且可逆的函数）表示一个同构，(ii)反演可以被有效地计算，以及（iii）网络具有易处理的雅可比行列式。这些骗局-2973y条件对体系结构设置了一些限制，例如输入和输出维度的数量必须相等，并且不能使用诸如最大池化（max-pooling）的不可逆操作。近年来，已经开发了满足这些条件的各种不同的可逆架构[12，13，4，19]。在这项工作中，我们采用了[13]中提出的仿射耦合块架构，并进行了额外的修改，如附录B.1所述。在任何生成设置中，都有训练图像Xi，它们遵循某种未知的图像分布p（X）。然后，目标是用网络给出的分布尽可能逼近 p （ X ），我们将其表示为 qθ（X）。在规范化流的情况下，qθ（X）通过使用INNfθ（“流”）将可能的输入X变换到潜在空间Z来表示然后，可以使用变量变化公式来计算-在任意点x通过⇣⌘qθ（x）= pZ = fθ（x）|det J（x）|（一）其中Jfθ/X是雅可比矩阵。可以证明，网络将通过最大化期望的对数似然logqθ（X）来学习真实分布（qθ（X）=p（X）），如等式2所1上文[47]。培训结束后，我们利用IB目标[49]，从信息理论的角度来看，这是用于鲁棒分类的理想损失函数给定网络的一些特征Z、输入X和地面实况输出Y，IB损失由使用互信息I（MI）的两LIB= I（X，Z）-βI（Y，Z）。（五）MI量化了变量之间共享信息的程度，并且可以写为I（V，W）=DKL（p（V，W）kp（V）p（W））。最小化IB损失意味着最大化关于包含在特征I（Y，Z）中的期望输出Y的信息与此同时，它的迷你-最大化包含在特征I（X，Z）中的关于原始图像的信息，从而产生鲁棒且有效的表示Z。这两个方面之间的权衡是例如，通过选择β0进行调整。如何将这一目标应用于INN并不是显而易见的，因为INN保留了信息，并且损失是不明确的。 [3]的作者表明，这可以通过向输入添加非常低的噪声来避免。这已经是为了去量化而对流量进行标准化的既定做法。由此，作者继续推导出代表IB目标的两个损失项，LIB=LX+βLY。实际上，这两个术语完全，该模型不仅可以用于估计可能性qθ（X），但也可以通过反转数额如下：1LX（x）=-log|det J x| +2个logsumexp0年⇣⌘v20-2wy0（六）网络，以便将Z的采样实例映射回图像空间在我们的情况下，这种方法是不够的，因为我们希望.LY（x，y）= onehot（y）·logsoftmax0年！20年2-wy0（七）使用INN作为生成分类器，这意味着我们需要对条件似然qθ（X|Y）。虽然存在不同的方法[52，2]，但我们采用[25]中介绍的形式。这里，潜在分布是条件密度p（Z|Y）：标准正态分布p（Z）被替换为每个类包含单位方差混合分量的高斯混合模型（GMM）p （ Z|Y ） = N （ Z; μY ，）（2）因此，我们使用vy：=f（x）-µy和wy：= logp（y）（在我们的情况下，对于统一类先验，log（1/（#classes）））。Jx是雅可比矩阵<$f（x）/<$x。y0表示logsumexp和logsoftmax操作中所有类的总和。为了方便起见，原始IB中的ββ与损耗中的β之间的差异是一个恒定的加权因子[3]，从而为粗略范围（1， 100）内的可管理β值提供了一个合理的目标。Xp（Z）=yXp（y）p（Z|y）=yp（y）N（Z;μy，）（3）直观地，我们发现：LX损失迫使数据在潜在空间中遵循GMM，INN是一个生成模型。但是，它对其中μy是潜在空间中y类的平均值;混合权重是类先验p（y），即每个类在数据集中出现的频率。条件似然qθ（X|Y）可以用变量变化公式（等式2）计算。1）如前所述，通过用适当的混合物组分代替完全分散剂（Z类条件方面，如类y被总结出来。该损失可以被重新布置以看起来类似于用于标准化流的最大似然损失，但是具有GMM作为潜在分布。另一方面，LY损失与分类交叉熵损失相似，例如，⇣qθ（X|Y）= p..Z= fθ（X）。Y⌘|.|.（四）只是通常的logits被logp（z）代替|y）p（y）=logp（z，y）。因此，LY负责制作3.2. 信息瓶颈下的客栈培训用类条件对数似然损失天真地训练INN，即使在轻度挑战性任务中，也会表现得非常差。相反，我们需要一个损失函数，其中对生成和类分离能力的关注可以被显式控制。为此，v2974似然模型以类为条件，但在其他方面忽略生成性能。X3.3. 检测OoD输入对于基于可能性的生成模型，通过直接利用估计的2975概率密度qθ：原则上，如果输入不在训练数据的支持范围内，并且模型已经学习了真实分布，则OoD样本应被分配logqθ（x）=-1。在实践中，只需要OoD样本具有比训练数据更低的似然分数。从这里，任何具有低于阈值的推断可能性的输入都可以被视为OoD。然而，在[34]中，作者确定了OoD输入具有不自然的高对数似然分数的各种特殊情况。这促使[36]中的典型性测试的发展，该测试使用上限和下限阈值。还有更好的扩展[10，43，45，55]，但我们选择典型性测试作为最简单的选择，以检查模型的自然能力我们稍微修改一下层块我大小渠道R.F.InnResNetInnResNet输入22433进入流1112126486池（Haar/max）5648641010Conv 2 x356482563434Conv 3 x42819251210690Conv 4 x6147681024314266Conv 5 x3730722048538426池（DCT/平均值）1150 528204811表1：对于INN和ResNet-50中的每个分辨率级别，给出了耦合/残差块的数量和空间大小，以及特征通道的数量和最大可能的感受野（R.F.）。788 .第八条。5典型性检验，使其成为传统的假设检验，零假设是输入是分布内的，更多细节见附录A.1。假设检验的p值是得分在OoD区的训练样本的分数，其也等于假阳性率。为了评估独立于阈值的OoD检测能力，我们改变了测试的p值，并产生了接收器工作特征（ROC）曲线。线下面积8 .第八条。48 .第八条。38 .第八条。28 .第八条。18 .第八条。07 .第一次会议。90 10 20 30LX（←）76747270680 10 20 30 40位/暗（←）该曲线（ROC-AUC）以百分比表示，用作OoD检测能力的标量测量，ROC-AUC为100%意味着OoD样品和分布内样品完全分离，而50%或更低的值表示随机性能或更差。4. 实验网络架构的详细描述见附录B.1，我们在下文中总结了要点。我们从仿射耦合块构造可逆网络（INN），如[13]中所介绍的，并从其他最近的工作[1，2，26，28]中进行了各种修改。作为2× 2最大池和全局均值池的可逆替代方案，我们分别使用Haar小波变换[2]和DCT变换[26]。由于仿射耦合块和ResNet中使用的残差块之间的相似性，我们尽可能将INN的设计与标准ResNet-50的设计相总体布局总结见表1，参见[21，表1]。由于可逆性的限制，两种网络的特征通道数和可用的感受野不同。关于有效而非最大接收场，见附录B.2。可逆性还与参数和计算的额外成本有关，总结在附录表5中：就网络参数以及一个前向传递的FLOP而言， INN的成本大约是标准ResNet-50的两倍。我们乐观地认为，这种开销可以减少在未来更有效的INN架构。图二：两个损失LX和LY（左），以及以位/暗为单位的生成建模精度与前1精度（右）之间的关系。每个点代表一个模型，使用不同的beta进行训练标准ResNet没有LX损失，显示为水平线。β= 0（标准归一化流量）的模型缺少LY损失，并显示为垂直线。标记中的小数字给出了该特定模型的β值4.1. 一般性能我们训练了几个生成分类器，超参数β 2的值如下{1，2，4，8，16，32，1}。同样，β控制模型对生成似然估计方面的关注程度（低β），而优先考虑好的分类性能（高β）。此外，我们还包括一个用β= 0训练的模型，即根本没有分类，类似于标准的归一化流，以及一个标准的前馈ResNet-50 [21]，即一个纯DC。表2和图2中使用的主要性能指标首先是测试集（在我们的情况下，ILSVCR 2012验证集[40]）上的前1名准确度。我们使用10种作物测试，这是最常用的性能评估在这种情况下。其次，对于生成似然估计性能，我们使用每维比特数（“bits/dim”）度量，因为这是基于似然的生成模型（如规范化流）它定量测量密度估计的准确性（即生成性能），例如在[48]中，其中较低的位/dim对应于更准确的生成模型。在表2中，我们报告了测试损失和两个差异。12481632∞ResNet-50ResNet-5032∞168421LY（←）β=0准确度（→）β= 02976冰箱暹罗猫28.2%27.8%真：迷你贵宾犬阿拉伯骆驼安全带百分之十点三8.63%9.07.35.63.92.10.4-1.39.07.35.63.92.10.4-1.3表2：使用不同β训练的模型的测试损失和度量。比特/维数量化密度估计模型的性能与原始ResNet一样，分类精度使用10种作物测试。OCE是过度自信错误，即自信的预测出错的频率（见正文，越小越好）。不同型号的性能指标。进一步如图2所示，变化的β在-3.09.07.35.63.92.10.4-1.3-3.0−4−3−2−10 1 2 34真：冰箱-3.09.07.35.63.92.10.4-1.3-3.0−4−3−2−10 1 2 3 4前馈网络的极限情况，以及纯den-−4−3−2−10 1 2 3 4−4−3−2− 10 1 2 3 4密度估计模型：分类精度随着β的增加而不断增加，但与前馈ResNet-50相比仍存在较小的差距，与[ 27 ]等工作一致。正如预期的那样，随着我们远离纯生成模型（β=0），比特/暗变得更糟最后，我们研究了不确定性校准，预测后验质量的定量测量。完整分析见附录表6。在这里，我们只报告过度自信误差高置信度C≥Ccrit=9 9. 百分之七 F或实例，如果这些情况下的错误率为1。1%，虽然应该是0。根据置信度，OCE为1。1/0。三点零三分。7. 我们的研究结果与以前的工作是一致的，因为不确定度校准随着β的降低而改善和更好的生产能力[3]。4.2. 解释性在下文中，我们展示了几个关于如何使用GC对数据和预测输出进行原生和直观解释的示例。当然，存在算法和方法可以为DC生成类似的结果。以下示例的要点是示出在GC中，仅使用潜在空间的结构和学习的似然性就可以获得一系列解释，而不需要以事后方式应用的附加修改或算法可视化决策空间：分类决策的属性完全由输入图像与周围类别的潜在代码确定。唯一的图3示出了一种可能性：潜在代码在通过两个最可能的类的中心的平面中可视化，使得到图3：输入图像的潜在空间位置（黑色点）在由前5个预测类的µy所跨越的决策空间中。图的水平轴是连接前2个预测类（红点和蓝点）的轴。图的垂直轴显示了5D空间中与水平轴的径向距离。选择说明性的圆，使得在垂直和水平方向上，高斯混合成分的90%的质量位于内部。请注意，图中的轴以不同的方式缩放，使其显示为圆形。测试示例从左到右：置信的分布内决策、由于模糊类别导致的不确定的分布内决策、由于多个合理图像解释导致的不确定决策、不确定的分布外决策。保持中心及其连接轴。附录C.1中给出了第二种方法，其中类的子集之间的分类可以完全可视化。类相似性：在图3的基础上，我们看到不同的类有不同的重叠量，这代表了它们之间的关系。这对于前馈模型是不可能的，因为不存在输入数据以这种方式嵌入的潜在空间。我们观察到，对于语义相似的类，高斯混合分量的位置μy很接近，而对于不相似的类，位置μy很远。重要的是，这也对模型的预测产生了影响例如，在图3中，右上角，类重叠很多。这意味着更多的点将位于重叠区域中，因此与例如左下角相比，这些决策中的更多决策将是不确定的，其中大多数输入将仅在两个类别中的一个中更准确地说，两个类中心越近，重叠越大，真：groenendael正确：导弹美国黑熊91.5%1.72%导弹射弹百分之五十四点六45.2%βL（试验）（#）XL（试验）（#）Y位/调光（#）应计（%）（“）OCE（#）1-1。908 .第八条。52四、3467岁。303 .第三章。872-0。658 .第八条。26六、1471岁。73四、1341 .一、148 .第八条。148 .第八条。72七十三。69四、3183 .第三章。668 .第八条。1012个。3574岁59四、73167 .第一次会议。178 .第八条。06十七岁43七十五。54四、152977KL老虎硬盘油菜埃及猫盒非洲象虎斑现代Tusker虎猫扬声器印度象北极狐无线电野牛灰狐狸cd播放机水缓冲器红狐卡带机基特福克斯磁带播放机牛车图4：不同类之间的潜在相似性。色图表示μy的成对距离以及预期的成对后验，这意味着例如“虎斑猫”和“老虎猫”之间的二元决策与20%的预期不确定性相关。对角线上的距离为0（在色彩映射表范围之外）。正确：领结真：limpkin正确：罗特韦尔犬Q级（领结）Q级（limpkin）Q级（罗威纳犬）Q级（套装）Q级（秃鹫）Q级（拉氏）Q级（太阳镜）(1.1%）Q级（秃鹰）(2.7%）Q类（足球）相关的例如，模型基于图像的背景而不是所讨论的对象进行决策，或者只关注识别对象的特定细节。CAM或GradCAM [56，42]等方法用于生成粗略的热图，显示对特定决策有影响的区域。使用IB-INN，我们可以提供这样的热图作为预测输出的直接分解，这意味着它们可以简单地理解为表示模型输出的不同方式，而不是事后解释技术。为了产生空间结构化的输出，我们考虑以下内容：由于模型的每个部分都是可逆的，我们可以从输出z开始，通过DCT运算将其与标准均值池不同，DCT池在任一方向上都不会丢失任何信息我们定义以下简称：w（y）= DCT-1。Σz-µ y。（八）图5：预测热图的示例。求和亮区域直接给出最终的类别预测。上图：领结和太阳镜位置，套装分布面积大。中：鸟的头使它成为类-重要的是，w（y）具有最终cons的空间结构旋转输出w （y ），具有高度和宽度索引k和l。因为DCT是线性和正交的，所以它涉及到距离，即。kz-μyk=kw（y）k，我们都知道而作为一个小人物，更是一个大人物。鹰或秃鹫的形状下图：两个Rot的热图-写✓kw（y）k2◆.X.w（y）02！tweiler类和tweilzeller类位于同一区域（模糊类），而足球是分开的。q（z|y）/exp-2=exp-kl2KL（九）这些类别之间的分裂决定的比例。事实上，如果A类是最高预测，则任何其他B类的预期置信度都可以根据潜在空间中μA和μB之间的距离明确计算出来，见附录C.2。图中显示了一些示例4票反对及这意味着潜密度可以写成一个和在指数空间坐标上。我们可以用几个额外的步骤对后验进行同样的分解，注意q（y|x）= q（z|y）p（y）/q（z）。这导致我们的热图QClass（k，l，y），其以与等式中相同的方式在空间上求和到类后验第九章：附录图中的完整相似性矩阵。十六岁这些问题突出了一个重要的事实：.Xqθ（y|x）= expKL！Q类s（k，l，y）.（十）帐篷混合模型包含一个内置的不确定性，班相似类之间的决定总是不确定的，仅由潜在空间的结构决定。这可能是解释为什么在这样的GC中预测不确定性被更好地校准的原因之一。后部热图：为了增加决策的可信度，显示图像的哪些区域QClass有一个超参数来调整热图的对比度。推导见附录C.4。示例如图所示五、类似地，我们可以计算显著性图QSalience（k，l，y），它对qθ （x）进行空间分解，根据模型显示图像的哪些部分包含最多的信息，在附录C.3中解释和显示。(93.8%）(4.1%）(33.1%）(23.3%）(92.1%）(3.5%）(0.9%）2978k+c·Lk+c·L噪音模糊天气数字β清理错误mCErel. mCE我是阿森特洛普OoD高斯枪冲动散焦玻璃运动变焦雪霜雾明亮对比弹性像素JPEG0––––77.5194.994.398.095.789.888.389.538.143.194.844.796.765.563.066.2132.798.51161.6267.995.395.298.692.987.184.987.433.045.496.543.597.060.461.955.6228.2792.51191.7573.694.895.298.587.882.681.384.930.943.296.544.195.256.661.051.2426.3188.21171.7270.8492.793.897.477.676.775.681.731.043.295.544.589.254.161.748.0825.4186.81171.8165.8589.391.294.656.963.563.173.737.646.687.845.171.253.165.149.11624.4684.91151.7962.4383.784.688.046.756.763.567.943.252.080.245.666.353.362.042.73223.8283.11131.7155.8381.681.584.039.851.650.154.843.944.361.644.653.952.452.541.1123.7383.41141.5844.2439.544.540.642.848.146.346.040.938.936.144.348.552.247.947.0ResNet22.678.21091.51––表3：我们报告了未扰动图像上的错误（干净错误）、平均损坏错误（mCE）和相对mCE，描述了损坏导致的相对性能下降（错误熵）。）.此外，我们报告OoD ROC-AUC检测分数（OoD）平均在所有腐败以及个别腐败。颜色的含义：良好检测≥85%;部分检测>55%;随机或较差检测 55%。4.3. 稳健性鲁棒性的不同度量：在当前的文献中，没有一个单一的度量标准可以明确定义深度学习的鲁棒性。一般来说，问题是模型如何对分布外（OoD）输入做出反应，这意味着输入不来自与训练数据相同的分布我们确定了四种常用的鲁棒性概念：(1) 特别是对于保留语义信息的数据集移位，鲁棒模型是对OoD输入保持良好性能的模型。(2) 还有定义（1）不适用的其他情况：如果OoD输入不包含任何被训练的类，则没有“正确”的因此，鲁棒性的第二个想法是，模型至少应该对OoD输入进行不确定的预测，通过预测输出的离散熵进行测量[44]。实际上，标准（非鲁棒）模型对OoD数据进行了高度自信的预测[44]。(3) 鲁棒模型可以是能够明确检测OoD输入的模型。在这种情况下，除了通常的任务输出外，模型还有一些辅助输出，确保如[44]中的预测熵的增加以用于（2）的意义上的鲁棒性，并执行OoD检测（3）。从表3中可以看出，与ResNet相比，GC在（相对）mCE，不考虑β。然而，它推断出更不确定的预测损坏的数据。对于OoD检测，我们观察到β值越小，总体得分越高。我们发现使用β = 2训练的GC是最强大的分类模型：它能够检测到各种腐败类型，同时是一个相当好的分类器（与β = 1模型相比，分类准确率差距为4.54个百分点，与ResNet相比，差距为5.67个百分点）。处理对抗性攻击：我们感兴趣的是发现生成分类器是否在（4）的意义上对对抗性攻击更鲁棒我们不是在提出一种新的、有竞争力的对抗性攻击防御方法，我们的目标只是检查GC是否对ImageNet上的对抗性攻击更鲁棒，就像以前观察到的MNIST一样[33，41]。为此，我们执行[ 8 ]中介绍的成熟的输入是否为OoD。该模型是鲁棒的，它明确指出，它LCW =kx-xAdv2（κ）类（ytarget），（十一）例GC特别适合于此，因为输入的估计可能性可以用作内置的OoD检测机制，但也存在其他方法[31，23，9]。为了测量这一点，可以使用诸如受试者-操作者曲线下面积（AUC-ROC）的度量(4) 在对抗性攻击的背景下，鲁棒性通常被理解为欺骗模型所需的对抗性扰动的幅度[53]。处理损坏的图像：我们首先考虑健壮的-即受攻击图像xadv应该接近原始图像x，同时被分类为目标y类目标t。 κ是一个超参数，它指定y目标t和n最高类别之间的logit差异应该有多大，控制分类器将被迫对其（错误）决策有多自信。当面对一个可以检测攻击的模型，如GC时，也可以添加一个额外的损失项Ldetect，以便欺骗检测机制，如[7]中所提出的：[22][23][24][25][26][27][28][29]在这里，现有的ImageNet验证图像被损坏，LCWD =kx-xAdv2（κ）类（ytarget）+d·L检测（十二）15种不同的严重度等级，示例见附录D.1。提出了平均腐败误差（mCE）和相对平均腐败误差（rel）。mCE）得分来测量分类器的鲁棒性我们也指-攻击目标的完整表述载于Ap-D.2.联合国系统为了进行评估，我们检查了标准CW攻击和两种检测欺骗攻击，d=66和d=1000，2979二、01 .一、51 .一、00的情况。50的情况。040的情况。030的情况。020的情况。010的情况。000的情况。04L2微扰12481632∞ RN检测ROC-AUC12481632∞1008060401000的情况。00的情况。03800的情况。0260-0。5-1。00的情况。010的情况。000的情况。2012481632∞RN12481632∞40100−3 −2 −1 0 10的情况。15800的情况。10600的情况。050的情况。00124816 32∞RN1248 164032∞图6：在潜空间中显示的四种对抗性攻击的轨迹（彩色曲线），其中κ= 1，d = 0（标准CW）。大黑点表示目标的位置，目标职业是“收割者（蜘蛛侠）”。黑色实线是周围类的决策边界。黑色虚线是区域的边界，其中分类器以对应于κ的足够高的置信度被愚弄。在彩色轨迹的虚线部分，分类器还没有被足够高的置信度愚弄。在固体部分，分类器被愚弄了，攻击只是试图减少扰动。下面，显示了四个扰动图像，以及绝对扰动。更多示例和详细说明见附录D.3。每个都有三个κ2 {0. 01，1，1}。对于这9个攻击设置，我们测量攻击后图像的L2扰动和攻击检测的ROC-AUC。结果如图7所示，从中我们得出了几个关键的观察结果。我们的结论是，与ResNet相比，GC需要大约2倍于标准对抗的扰动，与[33]一致。我们还观察到攻击检测机制对攻击具有部分鲁棒性;即使d=1000，它在某些情况下仍然工作得很好。此外，在该设置内，扰动的大小与标准攻击设置相比甚至更广泛欺骗分类器以更大的置信度预测错误的类也增加了必要的扰动作为可检测性。潜在空间中对抗性攻击的直观可视化如图所示。六、未达到置信度|x−xadv|κ=∞xadvκ= 0。01κ= 1。02980图7：GC在对抗性攻击下的行为。图的第一列显示平均扰动，第二列显示检测ROC-AUC。三行图对应于κ = 0的对抗性攻击。01（目标预测的任何置信度都足够），κ = 1（应具有高置信度），以及κ=1（应尽可能置信）。 X轴上的标签给出了β的值，“RN”是ResNet-50。每个β的三个条形对应于：标准对抗攻击（d= 0），d= 66和d= 1000，即检测机制在预测的同时被愚弄。扰动图中的虚线大致表示肉眼可见的攻击水平。请注意，这是主观的，只是一个粗略的指示。检测图中的线表示随机性能，即OoD检测没有任何用处。5. 结论在这项工作中，我们已经解决了图像分类的可信度问题在过去，许多与可信度相关的属性被归因于生成分类器（GC），例如增强的鲁棒性和可解释性。我们的GC表现几乎与标准的判别分类器（DC）相当，这里是ResNet，当针对判别性能进行调整时我们观察到，我们的GC在可解释性和本地分发外检测能力方面比标准DC有显著改进，但不能自动解决信任的所有方面：与通常的看法相反，它在图像损坏下的泛化能力并不比DC好，而且它不能完全防止对抗性攻击。在未来，我们预计，鲁棒性可以增加进一步的修改或额外的后处理算法，已经存在的DC。最后，我们贡献了在ImageNet上预训练的可下载GC模型。2981引用[1] LyntonArdizzone，Jakob Kruse，Carsten Rother，UllrichK？the。用非线性神经网络分析非线性问题在Intl.关于学习代表，2019年。[2] LyntonArdizzone，CarstenLüth，Ja k obKruse，CarstenRother和UllrichKöthe。使用条件可逆神经网络的引导图像生成arXiv预印本arXiv：1907.02392，2019。[3] Lynton Ardizzone，Radek Mackowiak，Carsten Rother，and UllrichKothe. 训练具有竞争生成分类的信息瓶颈的规范化流Advances in Neural Information Processing Systems，33，2020。[4] JensBehrmann ，Da vidDuv ena ud和J oérn-HenrikJacob-sen。可逆残差网络。arXiv：1811.00995，2018年。[5] Christopher M.毕夏普和朱莉娅·拉塞尔是产生性的还是区分性的？两全其美Bayesian statistics，8（3）：3[6] Guillaume Bouchard和Bill Triggs。生成分类器和判别分类器之间的权衡。第16届IASC国际计算统计研讨会（COMP-STAT[7] 尼古拉斯·卡里尼和大卫·瓦格纳。对抗性的例子不容易被检测到：列举十种检测方法。在第10届ACM人工智能和安全研讨会的会议记录中，第3-14页[8] 尼古拉斯·卡利尼和大卫·A.瓦格纳对神经网络鲁棒性的评估在2017年IEEE安全和隐私研讨会上，SP 2017，美国加利福尼亚州圣何塞，2017年5月22日至26日，第39-57页IEEE计算机协会，2017年。[9] Jiefeng Chen，Yixuan Li，Xi Wu，Yingyu Liang，andSomesh Jha. 神经网络中的鲁棒分布外检测 CoRR，abs/2003.09711，2020。[10] Hyunsun Choi ， Eric Jang ， and Alexander A Alemi. 等等，为什么？用于鲁棒异常检测的生成集成。arXiv预印本arXiv：1810.01392，2018。[11] 李崇轩，徐陶菲克，朱军，张波。三重生成对抗网。神经信息处理系统的进展，第4088-4098页，2017年[12] Laurent Dinh ， David Krueger ， and Yooney Bengio.NICE：非线性独立分量估计。arXiv：1410.8516，2014年。[13] Laurent Dinh，Jascha Sohl-Dickstein，and Samy Bengio.使用Real NVP进行密度估计。arXiv：1605.08803，2016.[14] Vincent Dumoulin ， Jonathe Shlens ， and ManjunathKudlur.一种艺术风格的学术代表。在Intl.关于学习表征，2017年。[15] EthanFetaya ，J？ rn-HenrikJacobsen ，WillGrathw ohl，andRichard S.泽梅尔理解关联生成模型的局限性。在第八届国际学术代表大会上，ICLR 2020，埃塞俄比亚亚的斯亚贝巴， 2020 年 4 月 26 日至 30 日。OpenReview.net，2020年。[16] EthanFetaya，J？rn-HenrikJacobsen和RichardS. 泽梅尔条件生成模型并不稳健。CoRR，abs/1906.01171，2019。[17] Partha Ghosh，Arpan Losalka，and Michael J. Black. 使用高斯混合变分自动编码器抵抗对抗攻击在第三十三届AAAI人工智能会议，AAAI 2019，第三十一届人工智能创新应用会议，IAAI 2019，第九届AAAI人工智能教育进展研讨会，EAAI 2019，檀香山，夏威夷，美国，2019年1月27日至2月1日，第541北京大学出版社，2019.[18] Leilani H Gilpin ， David Bau ， Ben Z Yuan ， AyeshaBajwa，Michael Specter，and Lalana Kagal.解释解释：机器学习的可解释性概述。2018年IEEE第五届数据科学和高级分析国际会议（ DSA

下载后可阅读完整内容，剩余1页未读，立即下载