ReLU神经网络产生远离训练数据的高置信度预测以及如何缓解这个问题

87 浏览量更新于2023-10-18 收藏 645KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

41为什么ReLU网络产生远离训练数据的高置信度预测以及如何缓解这个问题马蒂亚斯·海因图宾根大学萨尔大学Julian Bitterwolf图宾根大学摘要在野外使用的分类器，特别是用于安全关键系统的分类器，不仅应该具有良好的泛化特性，而且应该知道它们何时不知道，特别是在远离训练数据的情况下进行低置信度预测。我们发现，产生分段线性分类器函数的ReLU型神经网络在这方面失败了，因为它们几乎总是产生远离训练数据的高置信度预测。对于像图像这样的有界域，我们提出了一种新的鲁棒优化技术，类似于对抗性训练，它可以在远离训练数据的地方执行低置信度预测我们表明，与标准训练相比，这种技术在降低远离训练数据的预测的置信度方面非常有效，同时在原始分类任务上保持高置信度的预测和测试错误。1. 介绍神经网络最近在几个应用领域如对象识别和语音识别中获得了最先进的性能它们已经成为许多学习任务事实上的标准。尽管有这个伟大的成功故事和非常好的预测性能，但神经网络也有不受欢迎的方面。任何分类器都有一个自然的特性，那就是它应该知道什么时候它不知道，或者更直接地说：远离训练数据，分类器不应该进行高置信度预测。这在诸如自动驾驶或医疗诊断系统的安全关键应用中特别重要，在这些应用中，这样的输入应当导致使用其他冗余传感器或要求人类医生检查诊断的事实。因此，它是分类器的一个重要属性，然而，尽管它似乎是任何分类器的最低要求，但它并没有已经报道了许多案例，其中通过神经网络远离训练数据进行高置信度预测，例如。欺骗图像[30]，用于分布外图像[15]或医疗诊断任务[23]。此外，已经观察到，即使在原始任务中，-10的神经网络也会产生过度自信的预测[12]。一个相关但不同的问题是对抗样本，其中输入的非常小的修改可以改变分类器的决策[34，11，32]。除了为神经网络提供鲁棒性保证的方法[14，37，31，26]仍然只为小网络提供合理的保证之外，据我们所知，唯一没有被再次打破的方法[6，5，2]是使用鲁棒优化技术的对抗训练[25虽然已经提出了几种方法来使用softmax校准[12]，集成技术[20]或使用dropout [10]的不确定性估计来调整对真实输入分布的过度自信预测，但最近才解决了分布外输入的检测[15现有方法基本上要么通过温度重新缩放[12]使用softmax输出[9，24]的调整技术，要么使用生成模型（如VAE或GAN）对真实分布的边界输入进行建模[22，36]，以便在训练过程中直接区分分布内输入和分布外输入虽然所有这些方法都是朝着获得更可靠的分类器迈出的重要一步，但使用生成模型的方法最近受到了[28，16]的挑战，该方法报告说，生成方法可以为它们应该建模的类别之外的输入产生高度置信的密度估计。此外，请注意，对于输入分布的置信度校准非常有用的模型，如[10，12，20]不能用于分布外检测，因为它已经在[23]中观察到。另一种方法是在分类器中引入拒绝选项[35，4]，以避免分类器不确定的决策。在本文中，我们将证明对于ReLU类，42r=1l=1i=1..ΣΣL网络是具有完全连接的卷积层和残差层的网络，其中仅ReLU或泄漏ReLU用作卷积层的激活函数和最大或平均池化，基本上任何产生分段仿射分类器函数的神经网络都产生远离训练数据的任意高置信这意味着对分类器的输出进行操作的技术不能将这些输入识别为分布外输入。相反，我们形式化了众所周知的事实，即RBF网络在远离训练数据的类上产生几乎一致的置信度，这表明存在满足在从未见过数据的区域不自信的最低要求的此外，我们提出了一种由对抗训练激励的鲁棒优化方案[ 25 ]，该方案简单地对噪声图像执行统一的置信度预测，这些噪声图像通过构造远离真实图像。我们表明，我们的技术，nique不仅显着降低了信心，这样的噪声图像，但也对其他不相关的图像类，已经给出了线性区域数目的明确上界[27]。在此之后，我们将继续[8]。为了简单起见，我们只呈现完全连接的层。用σ表示：R→R，σ（t）=max {0，t}，ReLU激活函数，用L + 1表示层数，W（l）∈Rnl×nl−1和b（l）∈Rnl 分别是层L的权重和权重向量，对于L = 1，. . .，L+ 1和n0= d. 对于x∈Rd，定义g（0）（x）= x。然后可以递归地定义激活前和激活后的输出每一层，f （k）（x）=W（k）g（k−1）（x）+b（k），以及g（k）（x）=σ（f （k）（x）），k=1，. . . ，L，所以的的所得分类器是获得f（L +1）（x）= W（L +1）g（L）（x）+b（L +1）.设n（l），n（l）∈ Rnl×nl，其中l = 1，. . . ，L是按元素定义的对角矩阵，.如果i=j，在某些情况下，甚至对于为原始分类任务生成的对抗样本。n（l）（x）ij=.i，0别的（l）训练过程简单，不需要对不同的分布外任务进行调整，具有与标准对抗训练相似的复杂性，n（l）（x）ij=1如果i=j且fi （x）>0，.0其他。在原始分类任务上类似或稍微差一些的泛化性能2. ReLU网络产生分段仿射函数注意，对于泄漏的ReLU，条目将是1，α代替。这允许将f（k）（x）写为仿射函数的合成，即.f（k）（x）= W（k）<$（k− 1）（x） W（k− 1）<$（k− 2）（x）我们在本节中快速回顾了ReLU网络导致连续分段仿射分类器的事实.×。. ..ΣW（1）x+b（1）Σ. . .Σ+b（k−1）+b（k），参见[1，8]，我们简要地总结了这些内容，以便为我们在第3节中的主要理论结果奠定基础。定义2.1. 函数f：Rd→R称为分段仿射如果存在有限多面体集我们可以进一步简化前面的表达式为f（k）（x）=V（k）x+a（k），其中V（k）∈Rnk×d，a（k）∈Rnk由下式给出：. kY−1{Qr}M（称为f的线性区域），使得V（k）=W（k）n（k−l）（x）W（k−l）和Mr=1Qr=Rd且f是仿射函数，当re-l=1每一个Q r。前馈神经网络使用分段仿射激活函数（例如，ReLU，Leaky ReLU）a（k）=b（k）+k-1。kY−ll=1m=1ΣW（k+1 −m）<$（k−m）（x）b（l）。并且在输出层中是线性的，可以重写为连续分段仿射函数[1]。这包括全连接，卷积，残留层，甚至跳过连接，因为所有这些层都只是线性映射-ping。此外，它还包括进一步的平均池多面体Q（x），包含x的线性区域，可以 ΣL被表征为N=nl一半的交集空间由.Γ=��∈Rd. （l）（x）V（l）��≥0，最大池。更准确地说，分类器是一个l我.我我函数f：Rd→RK，其中K是对于l = 1，. . . ，L，i = 1，. . . ，n，即类，使得每个分量fi：Rd→R，是一个\\连续分段仿射函数和K分量元素（f i）K具有相同的线性区域集合。注意Q（x）=l= l，…Li=1，...，nl∪43伊尔岛44l=1i=1注意，N也是网络的隐藏单元的数量。最后，我们可以写.f（L+1）.（） .Q（ x）=V（L+1）n+a（L+1），这是f对Q（x）的仿射限制。3. 为什么ReLU网络产生远离训练数据的通过对第2节中ReLU类型网络产生的分段线性分类器的明确描述，我们现在可以制定我们的主要定理。它表明，只要网络上的一个非常温和的条件成立，对于任何θ>0，人们总是可以在（几乎）所有方向上找到一个远离·训练数据，其实现了1 -10%的置信度，对于某一类。然而，在我们开始之前，结果，我们首先需要证明中所需的技术引理，它使用所有线性区域都是多面体，因此是凸集。图1：将R2分解为两个隐藏层ReLU网络的有限多面体集。外部多面体延伸到无穷远。这就是ReLU网络实现任意高置信度预测的地方。图片是用[17]的代码生成的。该条件可以在网络的训练期间强制执行结果表明，对于ReLU网络，存在无限多的输入，这些输入实现了网络的任意高置信度预测。很容易引理3.1. 令{Q}R是线性区域的集合看看softmax的温度重新调整il=1k（x）/T对于温度T>0，如[24]中所用，与ReLU分类器f相关联：Rd→ RK。为任意x∈Rd，存在α∈R，其中α>0且t∈Kl=1 efl（x）/T{1，. . . ，R}使得对所有β ≥ α，βx∈ Qt.所有的证据都可以在补充材料中找到。利用引理3.1，我们现在可以陈述我们的第一个主要结果。定理3.1. 令Rd= VlRQ l且f（x）= Vlx + al是ReLU网络在Ql上的输出的分段仿射表示。假设Vl不包含对于所有l = 1，. . . ，R，则对于几乎任何当x∈Rd且α>0时，存在α>0和类k∈ {1，. . . ，K}，使得对于��= αx成立，将无法发现这些案件，特别是因为[24]中的方法的第一步包括朝着增加置信度的方向前进同样明显的是，在分类器中使用拒绝选项，参见例如。[3]，也不会帮助检测这些情况。结果是负面的，因为看起来如果不修改ReLU网络的架构，就不可能防止这种现象。请注意，从贝叶斯决策理论的角度来看，softmax函数是交叉熵损失转向分类器输出的正确传递函数[21]f（x）转化为估计P（Y = k|x，f）=efk（x）为efk（）Kx的条件概率。Kl=1 efl（x）ΣKr=1≥1−1。efr（）虽然之前的结果似乎还不清楚，以下结果至少是定性已知的[11]此外，limαfk（αx）=1时。但我们找不到它的参照物。相反，α→∞Kr=1 efr（αx）到ReLU网络，函数（RBF）网络具有预测能力，请注意，对于区域，线性部分V1不需要包含两个相同行的条件非常弱。很难想象，对于一个正常训练的网络来说，这是真的，除非网络的输出即使它是真的，它也只是使该定理对位于该区域内的点的断言无效。如果没有明确地执行这一点，产生远离训练数据的近似一致的置信度预测因此，存在满足我们在第1节中表述的最小要求的分类器。在下面的定理中，我们明确地量化了“远离”在RBF分类器和训练数据的参数方面的N2在这种情况下，似乎不可能对所有人都是如此定理3.2. 设fk（x）=l=1αkle−γ<$x −xl<$2，k=可能的渐近区域扩展到无穷大（见1，. . . ，K是用交叉熵训练的RBF网络图1）。但是，它也完全开放如何训练数据的损失（xi，yi）N. 我们定义rmin=45i=1minx−xα =最大值N |α-α |. 如果在这样的背景下，培训目标可以写下来--l= l，…Nn>0，Lr，k21 .αl=1rl klΣ十是两个损失的总和：1Nrmin≥γlog则对于所有k =1，. . . ，K，、log（1+KHz）Ni=1LCE（yi，f（xi））+λELpout（f，Z），（1）1−ǫ≤efk（x）Σ≤1+100。其中（xi，yi）N 是i.i.d.训练数据，Z已经显示-Kf（x）跳出来，Kr=1erK我们认为这是一个非常重要的开放性问题.efyi（xi）对于一个类，实现与定理3.2LCE（yi，f（xi））=−logΣKk=1 efk（xi）（二）神经网络。请注意，任意高的confi-.efl（��）可以获得Lpout（f，n）=max对数Kf（f）.（三）仅当域是无界的，例如，Rd.然而，图像包含在[0，1]d中，因此定理3.1l=l，…Kk=1ek不直接适用，即使该技术原则上可以用于产生高置信度的预测，LCE是原始类上通常的交叉熵损失Lpout（f，f）是所有类的最大对数置信度，其中类l的置信度实验（见附录）。未来是由，efl（��，softmax函数为第一节我们提出了一个新的培训计划，Kk=1 efk（）低置信度预测的输入远离训练数据4.对抗信心增强训练在本节中，我们提出了一种简单的方法来调整远离训练数据的神经网络的置信度估计，而不一定局限于定理3.1中研究的ReLU网络。定理3.1告诉我们，对于ReLU网络，softmax分数的后处理不足以避免远离训练数据的高置信度预测-相反，似乎有两种潜在的方法来解决这个问题：a）一种是使用额外的生成模型用于内部分布或外部分布，或者b）通过训练过程的自适应直接修改网络，以便在远离训练数据的地方执行一致置信度预测。由于最近已经指出了生成模型的问题，这些问题为来自外分布的样本分配了高置信度[28]，因此a）似乎不太有希望，我们探索方法b）。我们假设有可能在输入空间上表征数据pintspout的分布，对于该分布，我们确信它们不属于真实分布。链接功能。完全损失可以很容易地最小化通过对原始数据使用具有批量大小B的SGD，并在其上添加来自pout的样本s，从而在标签上实现均匀分布。我们在下面将这个过程称为置信度增强数据增强（CEDA）。我们注意到，在同时发表的一篇论文[16]中，已经提出了相同的方案，其中指出了大的图像数据集，而我们采用了一种不可知的方法，图像上的CEDA的问题是，它可能需要太多的样本来对整个外分布实施低置信度。此外，在对抗性操纵领域已经表明，数据扩充对于鲁棒模型是不够的，我们将在第5节中看到，CEDA模型确实在噪声图像的邻域中仍然产生高置信度的预测因此，我们建议使用来自鲁棒优化的想法，类似于对抗训练[34，11，25]，用于获得对抗对抗操纵的鲁棒网络。因此，我们不仅在点本身处实施低置信度，而且积极地最小化该点的邻域中的最坏情况。这导致了对抗性信心增强训练（ACET）的以下公式在resp中的IR载体的内表面的SETSuchanout分布pout的一个例子可以是[0，1]w×h（w ×h灰度图像）上的均匀分布或类似的噪声分布。假设1ΣNNi=1ΣLCE（yi，f（xi））+ λEMaxu −ZΣLpout（f，u），（四）内分布由某些图像类组成，如手写数字，然后所有的概率质量其中，在每个SGD步骤中，（近似）求解a给出了优化问题m：��在r下手写en个数字的年龄s，p输出是zero（如果它确实是一个低维流形）或接近于零。Maxu−Lpout （f，u）。（五）246在本文中，我们总是使用p= ∞。注意，如果分布p_out和p_in有一个共同点，则（5）中的最大值可以在支持真实分布的点处获得。然而，如果p_out是像均匀噪声或平滑的垂直噪声这样的一般噪声分布的情况下，则发生这种情况的情况的数量在rpout下具有接近于zero的概率质量，并且这不会对（4）中的损失LCE对真实分布产生负面影响（4）中的ACET优化可以使用[25]的PGD方法的适应版本进行对抗训练，其中执行投影梯度下降（可能用于几次重启）并使用实现最差损失的u由此产生的样本更具信息性，从而导致更快、更显著地减少远离（1）和ACET（4）都使用λ= 1，这意味着每个批次中50%的样本来自原始训练集，50%是噪声样本，如前所述对于ACET，我们使用p = ∞和∞ = 0。3、优化PGD [25]使用40次迭代和步长0。0075所有数据集。所有模型都在MNIST上使用ADAM [18]训练了100个epoch，并为SVHN/CIFAR-10/CIFAR-100使用SGD+动量。MNIST的初始学习率为10 −3，而MNIST的初始学习率为0。SVHN/CIFAR-10为1，在第50、75和一百个纪元中的第九十个更多的结果和细节可以在补充材料中找到。该代码可在https://github.com/max-andr/ relu_networks_overconfident上获得。评估：我们报告了每个模型（平原，CEDA，ACET）的测试误差和平均最大置信度。训练数据。我们使用= 0。3、所有数据集我们dence（对于每个点，这是maxfk（x）），MNIST和CIFAR-10 a的图2和图3k=1，…KKl=1 efl（x）通过应用PGD来求解（5）而生成的少量噪声图像以及它们的对抗性修改u可以观察到，所生成的图像没有类似于来自内部分布的图像的5. 实验在评估中，我们遵循[15，24，22]，在一个数据集上进行训练，并评估其他分布数据集和噪声图像的置信度。与[24，22]相比，我们既没有为每个测试数据集使用不同的参数集[24]，也没有在训练期间使用其中一个测试数据集 [22] 。更确切地说，我们在MNIST，SVHN，CIFAR-10和CIFAR- 100上进行训练，其中我们使用 MNIST 上的 LeNet 架构 [25] 和ResNet架构[13]用于其他数据集。我们还使用标准数据扩充，包括所有数据集的随机裁剪和CIFAR-10和CIFAR-100的随机镜像。对于从p_out生成失焦图像s，我们进行如下：一半的图像是通过随机置换来自训练集的图像的像素而生成的，形式上是随机的然后我们对这些图像应用具有标准偏差σ ∈ [1]的高斯滤波器。0，2。5]作为低通滤波器，具有更多的低频结构，噪音。由于高斯滤波器导致对比度降低，因此我们随后应用全局重新缩放，使得图像的最大范围再次在[0， 1]中。训练：我们通常（普通）训练每个模型，使用置信度增强数据增强（CEDA）和对抗性置信度增强训练（ACET）。众所周知，体重下降本身就能减少过度自信的预测。因此，我们使用重量对于所有模型，正则化参数为5· 10−4的衰减导致强基线（平原）。对于CEDA表示为MMC。为了评估-评估我们如何降低外分布的置信度，我们使用CIFAR-10 [19]和SVHN [29]上的四个数据集（即CIFAR-10，CIFAR- 100，SVHN，ImageNet-，这是ImageNet的一个子集，我们删除了类似于CIFAR-10的类，而LSUN [39]的课堂子集我们使用了我们没有训练过的类），对于MNIST，我们评估-评估EMNIST [7]，CIFAR- 10和Fashion MNIST [ 38 ]的灰度版本。此外，我们给出了对噪声、对抗性噪声和对抗性样本的评价。噪声的产生方式与我们用于训练的噪声相同。对于对抗性噪声，其中我们最大化所有类别的最大置信度（参见（3）中的Lpout（fi ）），我们使用具有200次迭代和步长0的PGD。0075在球里我们证明了当φ = 0时的φ·φ∞-范数。3（与培训相同）。注意，对于训练，我们只使用40次迭代，因此，测试时的攻击明显更强。最后，我们还检查了对抗样本的置信度，这些样本是使用PGD的80次迭代为分布数据集的测试集计算的，其中PGD = 0。3、步长为0。0075对于MNIST，且λ = 0。1，步长0。0025其他数据与[15，24，22]相比，后两种评价模式是新颖的对抗性噪声是有趣的，因为它积极地搜索在噪声图像的邻域中仍然产生高置信度的图像，因此比纯粹的噪声评估更具挑战性此外，它潜在地检测到对训练期间使用的噪声模型的过度适应，特别是在CEDA中。对抗样本的评估很有趣，因为人们可以希望，由于对抗样本通常与数据无关，因此分布外图像的置信度降低也会降低对抗样本的置信度47噪声样本MNIST对抗性噪声MNIST平原图2：顶行：我们基于均匀噪声分别生成的噪声图像。排列的MNIST连同高斯滤波器和对比度重新缩放。底行：对于上面的每个噪声图像，我们使用PGD生成相应的对抗性噪声图像，迭代40次，最大化普通模型的ACET损失的第二部分。注意，无论是在噪声图像中还是在反向修改的有类似于MNIST图像的结构。对于ACET和CEDA，很难为完全的训练模型，因此我们忽略它们。噪声样本CIFAR-10对抗性噪声CIFAR-10平原对抗性噪声CIFAR-10关于CEDA对抗性噪声CIFAR-10关于ACET图3：顶行：我们基于均匀噪声分别生成的噪声图像。排列的MNIST与高斯滤波器和对比度重新调整（类似于图2）。底部行：平原，CEDA和ACET模型的相应对抗图像。无论是噪音对抗性噪声图像也不显示与CIFAR-10图像的相似性歧管[33]，因此也是分布外样本（即使它们与真实分布的距离请注意，我们的模型在训练过程中从未见过对抗性样本，它们只使用对抗性噪声进行训练。然而，我们的ACET模型可以降低对抗样本的置信度作为评估标准，我们使用平均置信度，ROC曲线下面积（AUC），其中我们使用置信度作为检测问题的阈值（分布内vs.外分发）。此外，当真阳性率（TPR）固定为 95%时，我们在相同的设置下报告假阳性率（FPR）。所有结果见表1。主要结果：在表1中，我们显示了平原（正常训练），CEDA和ACET的结果。首先，我们观察到所有三种方法的测试误差几乎没有区别。因此，提高远离训练数据的置信度确实不损害泛化性能。我们还看到，普通模型总是在噪声图像上产生高置信度的预测，而在对抗性噪声上完全失败。CEDA在噪声图像上产生低置信度，但在对抗性噪声上大多失败，这是预期的，因为已经为创建对抗性样本做出了类似的发现只有ACET始终对对抗性噪声产生低置信度预测，并且具有高AUROC。对于分布外数据集，CEDA和ACET在大多数情况下改善了最大置信度和AU-ROC，有时具有非常强的改善，如在FMNIST上评价的MNIST或在LSUN上评价的SVHN。然而，观察到降低相关任务的置信度更困难，例如，在 EMNIST 上评价的 MNIST 或在 LSUN 上评价的CIFAR-10，其中图像结构更相似。最后，一个有趣的结果是，ACET降低了48培训MNIST普通（TE：0.51%）CEDA（TE：0.74%）ACET（TE：0.66%）MMCAUROCFPR@95MMCAUROCFPR@95MMCAUROCFPR@95MNIST0.991––0.987––0.986––FMNIST0.6540.9720.1210.3730.9940.0270.2390.9980.003EMNIST0.8210.8830.3740.7870.8950.3580.7520.9120.313灰色CIFAR-100.4920.9960.0030.1051.0000.0000.1011.0000.000噪声0.4630.9980.0000.1001.0000.0000.1001.0000.000Adv. 噪声1.0000.0311.0000.1020.9980.0020.1620.9920.042Adv. 样品0.9990.3580.9920.9870.5490.9530.8540.6920.782培训SVHN普通（TE：3.53%）CEDA（TE：3.50%）ACET（TE：3.52%）MMCAUROCFPR@95MMCAUROCFPR@95MMCAUROCFPR@95SVHN0.980––0.977––0.978––CIFAR-100.7320.9380.3480.5510.9600.2090.4350.9730.140CIFAR-1000.7300.9350.3500.5270.9590.2050.4140.9710.139LSUN CR0.7220.9450.3240.3640.9840.0840.1480.9970.012Imagenet-0.7250.9390.3400.5740.9550.2320.3680.9770.113噪声0.7200.9430.3250.1001.0000.0000.1001.0000.000Adv. 噪声1.0000.0041.0000.9460.0620.9400.1011.0000.000Adv. 样品1.0000.0041.0000.9950.0090.9940.3690.7780.279培训CIFAR-10普通（TE：8.87%）CEDA（TE：8.87%）ACET（TE：8.44%）MMCAUROCFPR@95MMCAUROCFPR@95MMCAUROCFPR@95CIFAR-100.949––0.946––0.948––SVHN0.8000.8500.7830.3270.9780.1460.2630.9810.118CIFAR-1000.7640.8560.7150.7610.8500.7200.7640.8520.711LSUN CR0.7380.8720.6670.7350.8640.6800.7450.8580.677Imagenet-0.7570.8580.6980.7490.8530.7040.7440.8590.678噪声0.8250.8270.8180.1001.0000.0000.1001.0000.000Adv. 噪声1.0000.0351.0000.9850.0320.9830.1120.9990.008Adv. 样品1.0000.0341.0001.0000.0141.0000.6330.5120.590培训CIFAR-100普通（TE：31.97%）CEDA（TE：32.74%）ACET（TE：32.24%）MMCAUROCFPR@95MMCAUROCFPR@95MMCAUROCFPR@95CIFAR-1000.751––0.734––0.728––SVHN0.5700.7100.8650.2900.8740.4100.2340.9120.345CIFAR-100.5600.7180.8560.5470.7110.8550.5300.7200.860LSUN CR0.5920.6900.8870.5810.6780.8870.5540.6980.881Imagenet-0.5310.7440.8270.5040.7490.8080.4920.7520.819噪声0.6140.6720.9280.0101.0000.0000.0101.0000.000Adv. 噪声1.0000.0001.0000.9850.0150.9850.0130.9980.003Adv. 样品0.9990.0101.0000.9990.0121.0000.8630.2670.975表1：在四个数据集MNIST，SVHN，CIFAR-10和CIFAR-100上，我们训练了三个模型：普通、CEDA和ACET。我们在分布外样本（其他图像数据集，噪声，对抗性噪声和从训练的测试集构建的对抗性样本）上评估它们。我们报告了所有模型的检验误差，并显示了分布内和分布外样本的平均最大置信度（MMC）（分布外样本越低越好），ROC曲线的AUC（AUROC）用于区分基于置信值的分布内和分布外（越高越好），以及同一问题在95%真阳性率时的FPR（越低越好）。对抗样本的置信度，见图4的说明，并在MNIST上实现非常高的AU-ROC值，以便可以通过阈值化置信度来检测对抗样本。显然，平原和CEDA在这项任务上失败了的良好表现的ACET在某种程度上是出乎意料的，因为我们只是将模型偏向于远离训练数据的所有类的均匀置信度，但对抗性示例仍然接近原始图像。总之，ACET确实显著提高了置信度估计值49平原ACETMNISTSVHNCIFAR-10CIFAR-100MNISTSVHNCIFAR-10CIFAR-100中值α1.528.18.19 .第九条。9>10649.845.39.9%过度自信百分之九十八点七百分之九十九点九百分之九十九点九百分之九十九点八百分之零点零50.2%百分之三点四百分之零点零表2：我们在按常数α ≥ 1缩放的均匀随机输入上评估所有训练模型（请注意，所得输入不会构成有效图像，因为在大多数情况下它们超过[0，1]d框）。我们找到了最小α，使得模型输出99.9%的置信度，并报告了超过10000次试验的中位数。正如定理3.1所预言的，我们观察到，仅仅通过用某个常数α来缩放输入，总是有可能获得过度自信的预测，并且对于普通模型，这个常数小于ACET。对于MNISTα的值太大了，我们遇到了数值问题。第二行：我们显示了将α-重新缩放的均匀噪声图像投影回[0，1] d时过度自信预测的百分比（高于95%置信度）。人们观察到，与标准训练相比，ACET模型的普通CEDA ACET图4：MNIST测试点的对抗样本的置信度值（对数标度）直方图。ACET是唯一一个大多数对抗样本置信度非常低然而，请注意，ACET模型没有在MNIST的对抗样本上进行训练，而只是在对抗噪声上进行训练。与普通相比，也与CEDA相比，特别是在对抗性噪声和对抗性示例上。特别是，它在对抗性示例上的良好效果是一个有趣的副作用，并在我们看来表明模型变得更加可靠。远离高置信度预测：Theo- rem3.1指出，ReLU网络总是在远离训练数据的情况下获得高置信度预测本文中使用的两种网络架构是ReLU网络。因此，有趣的是，调查是否置信度增强的训练CEDA或ACET比普通模型更难达到高置信度。我们做以下实验：我们取均匀随机噪声图像x，然后搜索最小的α，使得分类器达到99。9%置信度。这正是定理3.1的结构，结果可以在表2中找到。我们在表2中观察到，CEDA和ACET所需的放大因子α确实明显高于普通模型，这意味着我们的模型也会影响远离训练数据的网络。此外，这也表明，即使是明确旨在抵消远离训练数据的高置信度预测现象的训练方法，也无法防止这种情况。6. 结论我们在本文中已经证明，即使通过温度重新缩放等修改，也无法避免远离训练数据的ReLU网络的任意高置信度预测问题[12]。这是神经网络架构的固有问题另一方面，我们已经表明，CEDA，特别是ACET是一个很好的方式来达到更好的信心估计的图像数据。CEDA和ACET可直接用于任何带照明的型号，减少实现开销。对于未来，希望具有可证明具有远离训练数据的置信度在类上是均匀的属性的网络架构：网络知道它何时不知道。确认M.H. 和 J.B. 感谢 BMBF 通过 TubingenAICern ter（FKZ：01 IS 18039 A）和DFG TRR 248（项目编号389792660 ）以及DFG Excellence Cluster“MachineLearning - New Perspectives for Science” （ EXC2064/1，项目编号390727645）提供的支持50引用[1] R.阿罗拉A. Basuy，P. Mianjyz和A.穆克吉理解具有校正线性单元的深度神经网络在ICLR，2018年。2[2] A. Athalye，N. Carlini和D.瓦格纳。混淆的梯度给人一种虚假的安全感：规避对抗性例子的防御。在ICML，2018。1[3] P. Bartlett和M. H.韦格坎普使用铰链损失的拒绝选项进行JMLR，9：18233[4] A. Bendale和T.博尔特向开放集深网发展。在CVPR，2016年。1[5] N. Carlini和D.瓦格纳。对抗性的例子有不易察觉的：绕过十种检测方法。在2017年的ACM人工智能和安全研讨会。1[6] N. Carlini和D.瓦格纳。评估神经网络的鲁棒性。在IEEE安全和隐私研讨会，2017。1[7] G.科恩，S. Afshar，J. Tapson，and A.范·沙伊克。手写信件：手写信件的延伸。预印本，arXiv：1702.05373v2，2017年。5[8] F. Croce和M.嘿对relu网络的随机无梯度攻击。在2018年的GCPR中。2[9] T. DeVries和G. W. Taylor.神经网络中分布外检测的学习置信度。预印本， arXiv ：1802.04865v1，2018。1[10] Y. Gal和Z.Ghahramani丢弃作为贝叶斯近似：在深度学习中表示模型的不确定性。InICML，2016. 1[11] I. J. Goodfellow，J.Shlens和C.赛格迪解释和利用对抗性的例子。2015年，国际会议一、三、四[12] C. Guo，G. Pleiss，Y. Sun和K.温伯格现代神经网络的校准ICML，2017。1、8[13] K.他，X。Zhang，，S. Ren和J. Sun.用于图像识别的深度残差学习。CVPR，第770- 778页，2016年5[14] M. Hein和M.安德里先科分类器对抗性操纵鲁棒性的形式化保证。在NIPS，2017年。1[15] D. Hendrycks和K.吉姆佩尔用于检测神经网络中错误分类和分布外示例的基线。在 ICLR ，2017。一、五[16] D.亨德里克斯M. Mazeika和T.迪特里希具有离群值暴露的深度异常检测。2019年，在ICLR。1、4[17] M.约旦大学Lewis和A. G.迪马基斯对抗性示例的可证明证明：在多面体的并集中拟合一个球。arXiv预印本，arXiv：1903.08778，2019。3[18] D. P. Kingma和J. BA. Adam：一种随机优化方法。arXiv预印本arXiv：1412.6980，2014。5[19] A.克里热夫斯基从微小的图像中学习多层特征。技术报告，2009年。5[20] B. Lakshminarayanan、A. Pritzel和C.布伦德尔使用深度集成的简单和可扩展的预测不确定性在NIPS，2017年。1[21] M. Lapin，M. Hein和B.席勒top-k误差的损失函数：分析和见解。在CVPR，2016年。3[22] K. Lee，H.李，K. Lee和J. Shin.训练用于检测分布外样本的置信度校准分类器。在ICLR，2018年。一、五[23] C. Leibig，V.阿尔肯湾S. Ayhan，P.贝伦斯，以及S.哇利用深度神经网络的不确定性信息进行疾病检测。科学报告，2017年7月。1[24] S. Liang，Y. Li和R.斯里坎特增强神经网络中分布外图像检测的可靠性。在ICLR，2018年。一、三、五[25] A. Madry，A.马克洛夫湖Schmidt，D.齐普拉斯，以及A. 瓦尔杜对抗攻击的深度学习模型。在ICLR，2018年。一、二、四、五[26] M. Mirman，T. Gehr和M.维切夫可证明鲁棒神经网络的可微抽象解释。在ICML，2018。1[27] G. 蒙图法尔河，西-地帕斯卡努角Cho和Y.本吉奥。关于深度神经网络线性区域的数量在NIPS，2014。2[28] E. Nalisnick ， A. Matsukawa ， Y. Whye Teh ， D.Gorur和B.拉克什米纳拉亚南深度生成模型知道他们不知道的东西吗？预印本， arXiv ：1810.09136v1，2018。1、4[29] Y. Netzer，T. Wang，中国山核桃A. Coates，A.比萨科湾Wu，和A. Y. Ng.使用无监督特征学习读取自然图像中的数字。 2011年，NIPS深度学习和无监督特征学习研讨会。5[30] A. Nguyen、J. Yosinski和J. Clune深度神经网络很容易被愚弄：无法识别图像的高置信度CVPR，2015。1[31] A. Raghunathan，J.Steinhardt，和P.梁针对对抗性示例的认证防御在ICLR，2018年。1[32] P. F. S.- M.穆萨维-代兹福利A.法兹Deepfool：一种简单而准确的欺骗深度神经网络的方法。在CVPR中，第2574-2582页，2016年。1[33] D. Stutz，M. Hein和B.席勒解开对抗的鲁棒性和泛化。在CVPR，2019年。6[34] C.塞格迪，W。扎伦巴岛萨茨克弗布鲁纳D。二汉，我。Goodfellow，和R。费格斯。神经网络的有趣特性。ICLR，第2503-2511页，2014年。1、4[35] A. Tewari和P.巴特利特论多类分类方法的一致性。Journal of Machine Learning Research ， 8 ：1007-1025，2007。1[36] W. 小王，A. 小王，A. 塔玛，X. Chen和P. Abbeel 综合分类更安全。预印本， arXiv ：1711.08534v2，2018。1[37] E. Wong和J.Z.科尔特通过凸外对抗多面体对抗实例的可在ICML，2018。151[38

下载后可阅读完整内容，剩余1页未读，立即下载