分层卷积稀疏编码的对抗性防御方法

108 浏览量更新于2023-10-18 收藏 1.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

11447基于分层卷积稀疏编码的北京大学bosun@pku.edu.cn国立清华大学nianhsuan@gmail.com刘芳晨Ronald Yu Hao Su UC圣地亚哥{fliu，ronaldyu，haosu}@eng.ucsd.edu摘要我们提出了一种对抗性防御方法，该方法在攻击不可知的对抗性防御方法中实现了最先进的性能，同时还保持了对输入分辨率，对抗性扰动规模和数据集大小规模的鲁棒性。基于卷积稀疏编码，我们构造了一个分层的低维准自然图像空间，它忠实地逼近自然图像空间，同时也去除了对抗性扰动。我们在输入图像和神经网络的第一层之间引入了一个新的稀疏变换层（STL），以有效地将图像投影到我们的准自然图像空间中。我们的实验显示了我们的方法在各种对抗环境中与其他攻击不可知的对抗防御方法相比的最先进的性能x0x#$v（关闭歧管）T（x0）T（x#$v）1. 介绍针对对抗性攻击的现有防御机制虽然能够在某些对抗性设置中实现鲁棒性，但仍然无法对所有对抗性输入实现真正的鲁棒性最有效的现有防御方法修改了网络训练过程，以提高对抗性示例的鲁棒性[18，24，51，34]。然而，它们被训练来防御针对特定模型的特定攻击，限制了它们在现实世界中的应用，并声称对所有对抗性输入都具有鲁棒性。理想情况下，我们的防御机制应该与攻击和模型无关。另一种现有方法不是修改网络和训练过程，而是通过将对抗性输入修改为类似于干净输入来实现攻击不可知和模型不可知的期望属性[12，16，36，54，40，46，32，43]。然而，这些方法在其他对抗性设置中显示出在本文中，我们提出了一种基于输入变换的防御方法，与以前的攻击不可知和模型不可知的防御方法相比，该方法具有最先进的性能。此外，我们的方法也图1：自然和自然图像空间和我们学习的准自然图像空间。在自然图像空间中，从自然图像训练的神经网络可以为对抗性示例和干净图像分配不同的标签，因为它们在特征空间中可以彼此远离。在投影到准自然图像空间之后，它们倾向于在特征空间中紧密地躺在一起。同时对攻击扰动的规模、各种不同的输入分辨率和数据集规模更加鲁棒。我们通过将干净的和对抗攻击的输入图像投影到一个低维的准自然图像空间中来实现高水平的鲁棒性，该图像空间忠实地近似于自然图像空间，同时还去除对抗扰动，以便对抗示例在特征空间中接近其原始输入。我们使用基于卷积字典学习的方法[4，22，8，53]以非监督方式构建准自然图像空间，并通过在网络的输入和第一层之间引入新的稀疏变换层（STL）我们可以通过在准自然图像上重新训练分类器来进一步增强流水线的鲁棒性。实验上我们证明的我们的方法Xx#$v0神经网络特征空间T（x）al神经网络特征空间11448与现有技术的攻击不可知防御方法相比，在各种不同的对抗设置中实现了显著的鲁棒性改进。我们还表明，与其他基于输入变换的对抗性防御方法相比，我们的准自然图像空间能够提供更好的图像细节保留和去除对抗性扰动的能力。总的来说，我们的贡献是：• 我们提出了一种新的和有效的攻击不可知的对抗防御方法，使用一种新的稀疏Transformer层来转换图像，使相应的清洁和敌对的图像位于接近-在我们的准自然图像空间和特征空间。• 我们证明了我们的防御方法在攻击不可知的对抗性防御方法中达到了最先进的性能。• 与以前的最先进的防御方法相比，我们的防御方法更能够有效地处理各种图像分辨率，大小图像扰动和大规模数据集。• 在基于图像变换的对抗性防御中，我们的图像投影到准自然图像空间上实现了图像细节增强和去除对抗性扰动能力的最佳融合2. 相关作品对抗性攻击是故意稍微扰动以欺骗机器学习模型的输入。Szegedy等人[49]首先介绍对抗示例，并使用框约束L-BFGS方法生成它们。Goodfellow等人[18]提出了一种基于网络线性的有效单步攻击，称为FGSM。库-拉金等。[25]迭代应用FGSM并提出BIM。DeepFool[33]找到了跨越模型决策边界的最小扰动。CW [7]解决了一个优化问题，该问题最小化了目标函数和对抗图像与干净图像之间的差异。Liu等人。[27]使用基于集合的方法生成强可转移的对抗性示例。基于非梯度的攻击，如单像素攻击[47]和Zoo [9]，不需要网络参数和架构的知识。网络对抗防御修改这种类型的防御旨在提高目标模型对对抗性示例的鲁棒性。最常见的方法是对抗训练[18，24，51，34]，它将对抗示例添加到训练数据中。这类方法有效地增强了对对抗训练攻击的鲁棒性，但对未知攻击的泛化能力较差其他方法如特征压缩[55]，网络蒸馏[39]，基于区域的分类器[6]和饱和网络[35]修改了基于梯度掩蔽[38]的学习策略，并平滑了决策边界，但它们仍然容易受到黑盒攻击[7，37]。通过输入转换进行对抗性防御输入-转换防御旨在将对抗性扰动转换输入，然后再将其馈送到目标网络。以往的一些方法将对抗扰动视为高频噪声，并采用传统的去噪方法来平滑小扰动。[12，16]研究了JPEG压缩对去除有害噪声的影响。Osadchy等人[36]应用诸如中值滤波器和平均滤波器之类一组滤波器来去除扰动。Guo等人[20]测试了五种变换，发现总变分最小化和图像绗缝获得了良好的防御性能。这些去噪方法仅修复小扰动，并且遭受信息损失。最近，其他作品试图通过生成模型来净化负面图像Meng等人[32]提出一种双管齐下的防御机制，并使用去噪自动编码器来消除MNIST数字上的对抗性扰动[26]。Song等人。[46]使用PixelCNN将对抗图像转换为干净的图像[42]。虽然它们在小数据集上实现了良好的性能，但这些方法不能很好地扩展到更高分辨率或更大的数据集。像素操作方法也用于去除小的对抗性扰动。Xie等人。[54]利用随机填充和填充来减轻对抗效应。普拉卡什等人[40]通过一个我们称之为像素偏移的过程重新分配像素值，局部破坏对抗图像。然而，当这些方法遇到不是非常小的扰动时，它们会受到影响。与我们的方法最相似的是D3 [29]，它通过用自然图像补丁的稀疏组合替换补丁来对对抗图像进行降噪。D3的进一步讨论保留在第4节。卷积字典学习卷积稀疏表示是稀疏表示学习的一种形式[31]，其字典的结构相当于一组线性滤波器的卷积[17，4]。它广泛且成功地用于信号处理和计算成像[19，28，41，56，57，44]。许多已经开发了有效的算法[22，4，8，53，11]来解决这个问题。Sung等人最近还介绍了一种使用深度神经网络来学习3D点云稀疏字典的方法[48]。3. 方法3.1. 方法概述设X为图像空间，Y为标签空间。f θ（·）：X → Y是由θ参数化的分类器。给定114492分类器fθ（·）和干净图像x0，对抗示例xadv=x0+η是与x0略有不同但混淆f的图像：d（xadv，x0）<≠但fθ（xadv）fθ（x0），（1）其中d（·，·）是干净图像和对抗图像之间的距离函数。是扰动尺度，清洁）到一个准自然的空间，它消除了滋扰，包括对抗性的干扰的外观。设x的投影为T（x）（假设x是C个通道的STL层中的投影如下从卷积稀疏编码算法[11]。该算法通过解决以下优化问题以卷积方式学习字典：设置为一个小的数字，以获得几乎无法察觉的差异尽量减少1摄氏度ΣKxc−T（x）c<$2+λ1991年1月在xadv和x0之间。对抗性例子xAdv是虚构的图像，{fi，c}，{zi}2c=12i=1通常位于自然图像流形之外。这可能会导致从自然图像训练的网络，即使使用对抗性数据增强，也会将xadv映射到远离T（x）c=ΣKi=1fi，czi（二）x0（图1左侧）。因此，我们的想法是通过将xadv投影到自然图像mani来尽可能多地恢复x0折然而，参数化真正的自然图像流形实际上是不可行的。相反，我们利用流形学习来构建一个近似自然图像空间的低维空间，在本文中我们称之为准自然空间P与P一起，还有一个变换T，它将图像（自然的或欺骗的）映射到P。我们要求T满足以下约束：1. fθ（T（xadv））=fθ（T（x0））=yx0;2. d（T（xadv），T（x0））条件1要求分类器f为xadv和x0分配相同的groundtruth标签，这是我们的最终目标。为了保证条件1，除了学习f以优化分类精度之外，我们还引入了条件2（图1右）。条件2要求xadv和x0应该在P中的位置很近，这样我们就可以学习一个非常平滑的函数f满足条件1。这很重要，因为我们的f是一个神经网络，学习一个更平滑的映射将赋予它更好的泛化能力。我们采用无监督的方法来建立准自然图像空间.这个空间是通过将多个低维线性子空间拼接在一起来构造的。实际上，我们将训练数据聚类为几组，并通过卷积稀疏编码算法为每组学习线性子空间[22，11]。在构建了这个准自然空间之后，我们能够通过第3.2节中介绍的稀疏变换层将任何图像投影到这个空间，这将消除大量的不利扰动。然后，在这个准自然的图像空间中，我们可以重新训练分类器，以允许对对抗性样本进行鲁棒预测（第3.5节）。3.2. 稀疏变换层（STL）给定一个分类网络f，我们在输入图像和f的第一层之间添加一个稀疏变换层（STL）。此STL层投影输入（对抗或fi，C其中，f表示卷积运算符，C是输入通道的数量，K是每个输入通道的滤波器数量，fi，c|i=1，…K;c=1，.，C表示一组滤波器，以及zi|i=1，…K是每个过滤器的特征图。不同于标准稀疏编码，它学习一个如[50]所示，问题（2）学习通过局部字典和代码来重建图像块。这里，局部字典包含滤波器集合fi、c，并且局部代码被存储在特征映射zi中。约束中的卷积运算本质上是计算局部滤波器的线性组合。在vanilla稀疏编码中，选择一小组基来重建图像。类似地，在卷积稀疏编码公式中，应该选择一小组滤波器来重建局部补丁。实现滤波器的选择为了达到这个目标，我们必须通过添加正则化项来强制特征图zi是稀疏的在实践中，我们更喜欢使用少量的过滤器。这迫使过滤器学习自然图像流形上的主要和表现力的局部模式。此外，根据我们的观察，具有太多的滤波器可能导致额外的滤波器学习高频分量，其可以用于重建包括应该被移除的对抗性扰动的任意图像块3.3. 学习过滤器和特征映射将问题（2）中的约束插入目标函数，我们看到问题（2）是关于fi，c和zi的双凸。为了解决这个双凸问题，我们在（1）从干净图像中学习共享过滤器和（2）使用固定过滤器为每个输入图像学习稀疏特征映射之间交替。接下来我们简单介绍一下这两个阶段。字典学习给定特征映射，问题（2）在fi，c中变为凸的。为了有效地解决这个问题，我们转换到傅立叶域[52]，并使用ADMM算法作为求解器，遵循[11]的框架稀疏特征映射（代码）学习。给定固定过滤器{fi，c}，我们的目标函数再次是凸优化-11450潜在感知空间fi1：fi$c：滤波器⨂+⨂+⨂…⨂（）*稀疏特征映射+（（）*）DaeSTL：关节优化图2：我们的防御方法的管道。我们首先将图像馈送到预训练的去噪自动编码器，并找到图像应该属于的聚类。然后，我们选择对应于所选择的聚类的字典，并联合优化该字典中的稀疏特征映射和过滤器通过这种方式，我们可以将输入投影到准自然图像空间。在 zi中的问题。该问题也被称为卷积基追踪去噪（CBPDN）[10]，我们使用ADMM算法[3]来解决它。3.4. 分层拟自然象空间由于自然图像的高度内在变化，很难很好地重建所有的图像只使用一个小的字典。然而，如我们在第3.2节末尾所讨论的，我们也不想采用太大的字典，因为大字典将跨越过高的维度空间，不可避免地覆盖大量的非自然图像。这将降低我们的算法过滤掉敌对扰动的能力。为了规避挑战，我们将数据流形分成几个区域，并为每个区域学习一个单独的小字典。这样，每幅图像仍然由一个小字典重建，但我们仍然可以使用它们相应的字典很好地重建所有图像。在实践中，我们划分的图像空间聚类自然图像样本的感知特征的基础上。生成模型可以通过重构损失来学习感知特征。特别是，我们发现去噪自动编码器（DAE）[2]非常适合对抗性设置，因为它是用噪声输入训练的，并且特征提取过程可以适度容忍输入噪声。具体来说，我们训练自然图像及其噪声扰动版本（高斯噪声）上的DAE在实践中我们发现，原始图像和对抗攻击版本通常紧密地生活在DAE学习的潜在空间中。然后我们使用K-均值算法对训练数据进行聚类[13]。聚类允许我们对自然图像进行人工分割.给定一个任意输入图像（对抗或干净），我们可以从DAE中获得其潜在特征，并在训练图像数据集中找到k然后，我们投票给图像应该属于的集群。一旦我们找到了聚类，我们就可以更新过滤器和特征图以进行字典学习，或者计算图像的投影以进行分类网络训练/测试。3.5. 类自然空间中的分类器训练为了训练用于图像分类的分类器，我们将所有干净的训练图像映射到P。我们简单地使用它们的重构版本T （ x0 ）来训练用户选择的分类网络（例如，AlexNet）。为了在测试时执行防御，我们将训练好的分类器应用于T变换版本的测试图像（干净或对抗）。投射到P上后，T（xadv）和T（x0）具有相似的知觉和语义特征.因此，决定与原始空间相比，在这个准自然空间P…11451x4. 讨论在本节中，我们将讨论我们相对于现有对抗性防御的独特优势，然后分析我们的方法对抗流行的基于梯度的攻击方法的有效性背后的可能原因与现有方法的关系与依赖于攻击方法和模型类型的直接知识的对抗学习方法[18，24，51在没有任何明确的攻击者先验知识的情况下构建，我们的设计不会过度适应任何特定的攻击策略，并且往往是一个通用的工具。最近的攻击不可知防御方法使用生成模型将图像转换为低维空间[32，46，43]。我们选择不使用网络来构建低维空间，因为生成网络本身容易受到对抗性攻击。这些方法的另一个缺点是生成模型的有限表达能力将这些方法的领域限制在分辨率和规模较小的数据集，如MNIST [26]和CIFAR-10 [23]。像素操作方法[40，54]可以在大型数据集上工作，但它们只能在极小的扰动下实现良好的性能我们的方法在大的对抗扰动，复杂的数据集和更高的分辨率上工作得非常好[29]中提出的D3算法与我们的算法最相似。它取代了嘈杂的对抗图像补丁通过自然图像块的稀疏组合。然而，我们的方法提供了几个优点。首先，D3在CIFAR-10等低分辨率数据集上重建图像效果不佳[23]。其次，自然补丁字典的大小非常大（10 K-40K），而我们只需要少量的过滤器（通常为64）。他们的补丁字典的大小有两个主要缺点：过多的字典元素可能导致字典学习高频分量，这可能被用来错误地重构对抗扰动，并且通用字典元素不像我们的字典元素那样具有表现力，因此D3生成的图像不如我们的字典元素那样清晰，这在我们的实验中得到了验证。对基于梯度的攻击的鲁棒性我们的方法对基于梯度的攻击的有效性背后有两个主要概念：（1）梯度混淆：获得STL的数值梯度可能具有挑战性，因为STL的输出是非凸优化问题的解（具有输入图像的 arg min形式）。没有STL的梯度，设计基于梯度的攻击变得困难。(2)高频扰动消除：现有的基于梯度的攻击机制经常引入高频扰动。在问题（2）中，使用小字典和稀疏约束，学习的滤波器趋于相当平滑（图2），它可以过滤掉高频扰动模式。5. 实验在本节中，我们首先介绍我们的实验设置，然后展示与其他攻击不可知对抗防御的定量和定性比较。我们证明了我们的方法优于最先进的。最后，我们进行了分析的内在权衡投影图像质量和防御鲁棒性的转换为基础的防御。5.1. 设置我们在CIFAR-10 [23]，ImageNet [14]和ImageNet-10上进行实验，我们从整个数据集中手动选择10个粗粒度的类，例如。鸟、汽车、猫等。每个类包含8000个训练图像和2000个测试图像。我们在VGG-16 [45]和ResNet- 50 [21]上评估了我们的方法，以防御FGSM [18]，BIM [25]，Deep-Fool [33]和CW [7]。对于FGSM，我们将扰动尺度限制为0.04（FGSM-0.04）和0.08（FGSM- 0.08），对于BIM、DeepFool和CW，我们将扰动尺度限制为0.04默认情况下，我们设置过滤器数量K = 64，过滤器大小S = 8，稀疏约束λ = 0。二、我们首先将图像降采样到32×32来训练DAE，并将潜在空间分为CIFAR-10和ImageNet-10的4个集群，ImageNet的10个集群。5.2. 对抗性辩护我们评估了我们在准自然图像上重新训练分类器的方法的防御有效性，然后将对抗性示例投影到准自然图像空间上，如第3.5节所述。CIFAR-10的分类精度比较结果见表1，ImageNet-10的分类精度比较结果见表2，ImageNet的分类精度比较结果见表3。在表1和表2中，我们遵循第5.1节中描述的设置。在表3中，我们遵循[20]和[29]中的实验设置。虽然我们在他们的首选分辨率和数据集上与其他方法进行了公平的比较，但我们注意到，我们的方法的独特优势之一是它在各种分辨率下（在我们的实验中，从32到224）表现良好，而其他方法只能在有限的分辨率范围内工作。比较结果表明，我们的方法显着提高了对未知的黑盒攻击的分类鲁棒性，并优于国家的最先进的方法，在大多数类型的攻击具有很大的利润。此外，我们重新训练的模型在干净数据上实现了高精度，并且与干净模型相当，这意味着我们保留了丰富的细节，使网络能够学习区分特征。此外，我们还比较了我们的方法11452高级TVM绗缝 TVM+绗缝D3PDeflectSTL（Ours）清洁图3：ImageNet上图像重建结果的定性比较。第一列是输入由FGSM [ 18 ]攻击生成的对抗性示例，L2相异度为0。08.最后一列是相应的干净图像。从视觉上看，我们的方法在去除对抗性扰动和保留输入细节方面优于其他方法。[29]表1：通过比较方法进行防御后，VGG-16上所有方法都在其转换后的数据上进行训练和测试“Clean” meansaccuracy of transformed clean data“STL”表示使用单个通用过滤器集的STL转换。“STL (cluster)” denotes STLfilters are chosen through latent space国防清洁FGSM-0.08FGSM-0.04BIMDeepFoolCW没有防守0.92980.58160.65230.18030.17600.0936MagNet[32]0.92060.73930.85520.77070.87700.8594[46]第四十六话0.90410.83160.87990.85150.88270.8845STL0.90020.85150.87320.87540.88380.8880STL（群集）0.90110.85670.87150.88030.88900.8904使用广泛使用的对抗训练[24]，并表明我们在未知攻击上取得了更好的结果（附录B）。5.3. 白盒攻击我们的防御主要针对黑盒/灰盒攻击，与其他方法一样，极易受到白盒攻击，特别是在ImageNet上。尽管如此，我们证明了我们的方法对CIFAR-10上的白盒攻击向后通过可微近似（BPDA）的敏感性显著降低[1]。BPDA专门针对梯度不能优化损失的防御;这是我们的方法的情况，因为我们的STL不可微。表4显示，尽管我们的防御准确性受到基于模糊梯度的攻击的损害表2：在通过分辨率为64（表2.A）和128（表2.B）的方法进行防御后， VGG-16 上的对抗性示例的ImageNet-10分类准确度。所有的方法都是通过各自的防御方法在变换后的数据上进行训练和测试的.这里Crop-Ens表示[20]中的Crop+TVM+Quilting，PD-Ens表示[40]中的PD+R-CAM+DWT。表2.A决议64.国防清洁FGSM-0.08FGSM-0.04BIMDeepFoolCW没有防守0.86650.28160.30800.18830.08110.0751TVM[20]0.75550.59970.69300.71560.72100.7187绗缝[20]0.77410.73040.74180.76420.76460.7662[20]第二十话0.75080.69680.72210.73690.74010.7304PD-Ens[40]0.82500.66340.76070.79030.79550.7813STL0.84380.72750.80020.81640.81630.8058STL（群集）0.84210.75140.80380.81030.82210.8122第128章.国防清洁FGSM-0.08FGSM-0.04BIMDeepFoolCW没有防守0.89910.21230.24090.17900.05840.0504TVM[20]0.85670.73020.81810.81830.82210.8101绗缝[20]0.83540.76120.79140.80480.81640.8093[20]第二十话0.83820.76400.79690.80330.80710.7955PD-Ens[40]0.86030.67400.80110.82730.83200.8262STL0.87840.72020.83080.83200.85600.8449STL（群集）0.87210.74210.83560.83850.84940.8421在CIFAR-10数据集上，它比其他具有这种现象防御更健壮。在ImageNet [14]上，案例研究中的所有防御方法（[20]和[54]）都获得了0%的防御准确率。下11453表3：ResNet-50上对抗性示例的Top-1 ImagetNet分类准确度我们遵循[20]中的实验设置，[29]其中所有攻击的平均归一化L2相异度为0.06。所有方法都经过培训和测试转换后的数据。国防清洁FGSMBIMDeepFoolCWUAP没有防守0.7610.1070.0120.0100.0190.133[第20话]0.7010.6550.6560.6520.641-TVM+被子[20]0.7240.6570.6580.6580.640-[20]第二十话0.7210.6670.6700.6710.635-[29]第二十九话0.7180.686-0.631-0.715[29]第二十九话0.7080.683-0.646-0.703[29]第二十九话0.6900.671-0.648-0.689PD-Ens[40]0.7190.6370.6330.6380.6430.667STL（群集）0.7210.6930.6780.6850.6770.712表 4 ： CIFAR-10 、 VGG-16 上的反向可微近似（BPDA）[1]攻击结果。所有方法都在距离L∞=0处受到攻击。031用表示的防御建议结合对抗训练。国防SAP [15]TE [5]盖[30]PD [46]MagNet [32]STLSTL（群集）精度0.000.00*0.050.09*0.100.38*0.42*同样的设置，我们的防御精度同样下降到1%。我们进一步分析了我们的方法5.4. 输入转换有效性由于STL具有强大的重建能力，投影图像仍然忠实地保留了输入数据空间的信息。这是一个有用的属性，因为它允许我们使用一个vanilla模型来部分防御对抗性示例，当我们由于访问整个数据集等限制而无法在准自然图像因此，我们还评估了使用STL来投影仅在干净数据上预训练的香草模型的对抗性示例的准确性。为了执行防御，我们只需将输入投影到准自然空间中，并将投影图像反馈到vanilla模型中。我们在表5（CIFAR-10）、表6（ImageNet-10）和表7（ImageNet-10）中比较了应用于攻击香草模型的其他输入转换方法。我们的输入转换的定性比较如图4（CIFAR-10）和图3（ImageNet）所示更多结果见附录E。在相对较大的扰动下（例如，FGSM-0.08），所有的竞争方法都未能成功地克服对抗性攻击，而我们的方法显着优于他们。在轻微扰动的对抗性例子中（例如，DeepFool和CW），我们实现了强大的防御，并在干净的数据上保持准确性。我们看到我们的方法Adv MagNet PD STL（Ours）Clean图 4 ： CIFAR-10 [23] 与 MagNet [32] 和 PixelDefend（PD）[46]的定性比较。第一列是由FGSM [18]生成的对抗图像，L2-相异度=0.08。最后一列是对应的干净图像。我们可以观察到，MagNet不能完全消除对抗扰动，而PixelDefend过度平滑图像，导致大量信息丢失，有时会引入彩色伪影。表5：在攻击的vanilla VGG-16模型上转换的干净和对抗示例的CIFAR-10分类准确度。国防清洁FGSM-0.08FGSM-0.04BIMDeepFoolCW没有防守0.92980.58160.65230.18030.17600.0936MagNet[32]0.90350.61450.65210.43120.65350.4845[46]第四十六话0.85260.68100.73290.77290.74140.7579STL0.82850.70990.74870.74620.78540.7765STL（群集）0.83600.71030.75470.75310.79590.7906即使使用vanilla clean模型，也可以有效地防御对抗性攻击。5.5. 质量和健壮性之间的权衡在基于转换的对抗性防御中，我们通常旨在消除对抗性扰动，同时保留有用的细节。然而，这是很难实现的，因为重要的细节和对抗性的扰动通常是一起移动的。因此，我们研究了在我们的方法中变换质量和防御鲁棒性在我们的方法中，控制投影质量的关键参数是稀疏约束权重λ：较大的λ导致更模糊的结果。我们逐渐地-114540.850.800.750.700.650.600.550.502324 25 26 27 28STL像素偏转TVM绗缝TVM+绗缝表6：在分辨率为64（表6.A）和128（表6.B）的攻击vanillaVGG-16模型上表6.A决议64.国防清洁FGSM-0.08FGSM-0.04BIMDeepFoolCW没有防守0.86650.28160.30800.18830.08110.0751TVM[20]0.81720.34030.47440.65950.69430.6823绗缝[20]0.63180.45410.53120.56960.54360.5563[20]第二十话0.55900.45700.53280.53690.54290.5320PD-Ens[40]0.79460.33880.55260.65680.69190.6827STL0.79250.54720.68250.72450.75620.7414STL（群集）0.80170.57290.69140.72340.76520.7521第128章.国防清洁FGSM-0.08FGSM-0.04BIMDeepFoolCW没有防守0.89910.21230.24090.17900.05840.0504TVM[20]0.85910.25680.43860.65860.63600.6129绗缝[20]0.81490.39030.58890.64340.62420.5922[20]第二十话0.77300.46220.64470.68760.70600.6888PD-Ens[40]0.87890.23330.42860.72210.73590.7272STL0.86540.45520.64180.73320.73080.7212STL（群集）0.87590.47330.66060.73230.73010.7432表7：在受攻击的vanilla ResNet-50模型上转换的干净和对抗示例的前1 ImageNet分类准确性。国防清洁FGSM-0.08FGSM-0.04BIMDeepFoolCW没有防守0.76130.08620.11400.01310.01060.0201TVM[20]0.62050.31230.42560.49230.52320.5012绗缝[20]0.41680.37870.38650.38230.38590.3783[20]第二十话0.64320.46230.55460.59650.60230.5980PD-Ens[40]0.68210.38460.56910.60890.62200.6371STL0.67280.53480.60320.62530.62330.6158STL（群集）0.69210.55880.60530.63480.64680.6220增加λ并探索这种权衡（图5）。我们将Acc（x）记为输入 x 的 vanilla 模型的准确度 . 较高的 Acc （ T（x0））意味着较高的变换质量，因为投影图像仍然保留有用的信息。小Acc（T（x0））−Acc（T（xadv））表示干净样本和对抗样本在特征空间中相似。如果Acc（T（x0））和Acc（T（xadv））都很高，则该决策可以是稳健的。在图5中，我们看到，随着λ的增加，Acc（T（x0））减小，Acc（T（x0））和Acc（T（xadv））收缩。我们还提出了一个度量标准来衡量这种权衡.具体来说，我们使用T（xadv）和x0之间的PSNR来衡量重建质量。为每个方法相比较而言，让0=Acc（T（x0））和aadv=Acc（T（xadv）），则我们将其与特征区间[min（a0，aadv），max（a0，aadv）]相关联以表示其总体预测质量。显然，一个强大的方法应该具有短（良好的鲁棒性）和高（良好的准确性）的间隔。我们绘制了2D PSNR与预测质量图，其中右上角指示最高的鲁棒性和预测质量。在图6中，我们显示了该地图上占用区域的比较结果。我们的方法实现了最高的PSNR和最好的字符。（一）.T（x$）T（x&d（）（b）.图5：图像重建质量和防御鲁棒性之间的内在权衡。（一）.每个对应λ的变换结果。（b）. T（xadv）的准确度和T（x0）的解。（设置：FGSM-0.08，ImageNet-10，VGG-16，分辨率64）。PSNR图6：PSNR，Acc（T（xadv））和不同方法的Acc（ T （ x0 ））（设置： FGSM-0.08 ， ImageNet-10 ，VGG-16，分辨率64）。对于两个轴，数字越大越好。并且Acc（T（xadv））和Acc（T（x0））意味着更高的鲁棒性。这表明它具有实现鲁棒性、准确性和保持图像质量的卓越能力6. 结论我们提出了一种新的最先进的攻击不可知的对抗性防御方法，具有额外的增加的鲁棒性输入分辨率，扰动规模和数据集规模。受卷积稀疏编码的启发，我们设计了一种新的稀疏变换层（STL），将输入投影到低维准自然空间，其中重新训练的分类器可以做出更可靠的决策。我们在CIFAR-10和ImageNet上评估了所提出的方法，并表明我们的防御机制提供了最先进的结果。我们还提供了投影图像质量和防御鲁棒性之间的权衡分析。致谢我们感谢Bo Li提供关于白盒攻击的重要讨论。0.80.60.40.00.10.2）0.30.40.5Tx$2016 -04 -2500：00：00精度精度11455引用[1] A. Athalye，N. Carlini和D.瓦格纳。模糊的梯度给人一种错误的安全感：规避防御对抗性的例子，2018年。在ICML中。[2] Y. 本焦湖Yao，G.Alain和P.文森特广义去噪自动编码器作为生成模型，2013年。在NIPS。[3] S. 博伊德，N.Parikh，E.楚湾，澳-地Peleato和J.Eckstein通过乘子交替方向法的分布优化和统计学习Foundations and Trends in Machine Learning，3（1）：1[4] H. Bristow，A. Eriksson和S.露西快速卷积稀疏编码，2013年。在CVPR中。[5] J. Buckman，A.罗伊角拉菲尔和我古德费罗温度计编码：一种抵制对抗性考试的好方法。在国际学习代表会议（ICLR），2018年。[6] X. Cao和N. Z.龚通过基于区域的分类减轻对深度神经网络的逃避攻击，2017年。在第33届计算机安全应用年会的ACM。[7] N. Carlini 和 D.A. 瓦格纳。 Towards Evaluating theRobust- ness of Neural Networks，2017。2017年IEEE安全与隐私研讨会（SP）。[8] R. Chalasani，J. C. Principe和N.拉马克里什南卷积稀疏编码的快速近似方法，2013年。在IJCNN。[9] P. - Y. Chen，H.Zhang，Y.Sharma，J.Yi和C.-J. 谢Zoo：基于零阶优化的黑盒攻击深度神经网络，无需训练替代模型，2017年。arXiv预印本arXiv：1708.03999。[10] S. S. Chen，中国粘蝇D. L. Donoho和M. A.桑德斯基追踪原子分解。SIAM J. Sci. Comput. ，20（1）：31[11] B.乔杜里河Swanson，F.海德湾Wetzstein和W.海德里希共识卷积稀疏编码，2017年。在ICCV。[12] N. 达斯，M.Shanbhogue，S.-T. Chen，F.霍曼湖陈先生，M. E. Kounavis 和 D. H. 周 Keeping the bad guys out ：Protectingandvaccinatingdeeplearningwithjpegcompressions，2017.arXiv预印本arXiv：1705.02900。[13] A. David和S.瓦西里茨基k-means++：谨慎播种的优势第十八届年度ACM-SIAM离散算法研讨会论文集。[14] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和F.费立。Imagenet：一个大规模的分层图像数据库，2009年。在CVPR中。[15] G. S. Dhillon，K. Azizzadenesheli，J. D. Bernstein，J.Kos-saifi，A. Khanna，Z.C. Lipton和A.Anandkumar 随机激活修剪用于强大的对抗性防御。国际学习表征会议，2018年。[16] G. K. Dziugaite，Z. Ghahramani和D. M.罗伊JPG压缩对对抗性图像影响的研究CoRR，abs/1608.00853。[17] C. Garcia-Cardona和B.沃尔伯格卷积字典学习：比较审查和新算法， 2018 年。 arXiv 预印本 arXiv ：1709.02893。[18] I.古德费洛，J。Shlens和C. 赛格迪解释和利用对抗性例子，2014年。CoRR，绝对值/1412.6572。[19] S. Gu，W.左角，澳-地Xie，黄胸拟谷盗D.孟，X. Feng和L.张某卷积稀疏编码用于图像超分辨率，2015年。在ICCV。[20] C. Guo，M. Rana，M. Cisse和L.范德马滕。使用输入转换来计算对抗图像，2018年。在ICLR。[21] K.他，X。Zhang，S. Ren和J. Sun.图像识别的深度残差学习，2017年。在CVPR中。[22] F. Heide，W. Heidrich和G.韦茨斯坦快速灵活的卷积稀疏编码，2015年。在CVPR中。[23] A.克里热夫斯基河Nair和G.辛顿加拿大高级研究所。[24] A.库拉金岛 Goodfellow和S. 本吉奥。大规模对抗性机器学习，2016. arXiv预印本arXiv：1611.01236。[25] A. 库拉金岛J. Goodfellow和S.本吉奥。物理

下载后可阅读完整内容，剩余1页未读，立即下载