基于检测的对抗性样本防御的隐写分析方法

159 浏览量更新于2023-10-19 收藏 599KB PDF 举报

隐写分析

深度神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4825从隐写分析的角度研究基于检测的对抗性样本防御刘佳阳1张伟明2张义伟1侯东东1刘玉佳1查洪跃1能海宇2中国科学技术大学1{ljyljy，zywvvd，houdd，yjcaihon，zha00}@ mail.ustc.edu.cn，2{zhangwm，ynh}@ustc.edu.cn摘要深度神经网络（DNN）最近在许多领域取得了重大进展。然而，DNN容易受到对抗性示例的影响，这些示例是具有不可感知的扰动的样本此外，对抗性示例可以用于对各种基于DNN的系统进行攻击，即使对手无法访问底层模型。已经提出了许多防御方法，例如混淆网络的梯度或检测对抗性示例。但事实证明，这些防御方法都是无效的，或者不能抵抗二次攻击。本文指出隐写分析可以应用于对抗性样本检测，并提出了一种通过估计对抗性攻击引起的修改概率实验结果表明，该方法能够准确地检测出对抗性样本。此外，由于该方法不是基于神经网络，而是基于高维人工特征和Fisher线性判别集成，因此很难直接对该方法进行二次对抗攻击。1. 介绍深度神经网络（DNN）最近在许多领域取得了重大进展，例如图像分类[28，15]和语音识别[1]。然而，DNN的泛化特性最近受到质疑，因为这些机器学习模型易受对抗性示例的影响[31]。对抗性示例是稍微修改的样本，旨在导致基于DNN的模型的错误输出。在分类任务的上下文中，对抗性示例被精心制作以迫使模型将其分类到与合法类不同的类中此外，对抗性示例具有跨模型泛化特性[12]，因此攻击者甚至可以在不知道DNN的情况下生成对抗性示例对抗性攻击分为两种类型：有针对性的攻击和无针对性的攻击。在定向攻击中，攻击者生成对抗性示例，这些示例被分类器错误分类到特定的类中。在无目标攻击中，攻击者生成对抗性示例，这些示例被分类器错误分类为任何类，只要它与真实类不同。有许多研究集中在生成对抗性例子的方法上。一些攻击方法是基于计算网络的梯度，如快速梯度符号法（FGSM）[12]，基本迭代法（BIM）[18]和雅可比显着图攻击方法[25]。而其他方法是基于解决优化问题，如L-BFGS [31]，Deepfool [23]和Carlini Wagner（CW）攻击[6]。许多防御措施被提出来减轻对抗性的例子对上述攻击。它们使对手更难使用现有技术制作对抗性示例，或者使DNN仍然对对抗性示例给出正确的分类。这些抗辩主要分为两类。一种方法是在分类之前对输入图像进行预处理，利用敌对示例的空间不稳定性防御者可以在将输入图像提供给DNN之前在空间域中对输入图像执行一些操作，例如JPEG压缩，缩放，添加噪声等。Gu等人。[14]提出使用自动编码器来从输入中去除对抗性扰动。另一种方法是修改网络结构、优化技术或训练过程。Goodfel-low等.[12]建议使用对抗性示例来增强训练集，以提高模型对特定对抗性攻击的鲁棒性。然而，这种方法面临着困难，因为网络中图像和特征的维数意味着需要大量的训练防御性蒸馏[26]是另一种针对某些对抗性攻击的技术。这种形式的网络可以防止模型与原始模型拟合得太紧4826数据不幸的是，这些防御措施中的大多数在分类任务中对对抗性示例都不是很有效模糊梯度似乎对对抗性攻击是鲁棒的。混淆梯度可以定义为梯度掩蔽的特殊情况[24]，其中攻击者无法计算出可行梯度来生成对抗性示例。然而，Athalye etal.[2]提出了攻击技术来克服基于模糊梯度的防御。由于对抗性样本分类的困难，最近的工作已经转向检测它们。Hendrycks& Gimpel [16]，Li et al.[19]和Bhagoji et al. [3]使用PCA检测图像或网络参数的统计特性Feinman等人[9]执行另一个统计测试来检测对抗性示例。Grosse等人[13]，Gong et al. [11]和Metzen etal.[22]利用第二个神经网络将图像分类为正常或对抗。Lu等人。[21]通过假设对抗性示例在网络中产生与正常图像产生的不同的ReLU激活Xu等人[32]提出了一种称为特征挤压的方法，通过测量原始和挤压样本的预测向量之间的不一致来检测对抗性样本Liang等人[20]通过比较输入的分类结果及其去噪版本来检测对抗性示例。2. 相关工作2.1. 对抗性攻击2.1.1快速梯度符号法Goodfellow 等人 [12] 提出了快速梯度符号方法（FGSM）来生成对抗性示例。该方法使用网络的损失函数对输入特征向量的导数。给定输入图像X，FGSM是通过梯度扰动每个特征的梯度方向。然后，输入图像的分类结果将被改变。对于具有交叉熵代价函数J（X，y）的神经网络，其中X是输入图像，yt是输入图像的目标类，对抗性示例生成为Xadv=X−sign （ XJ （ X ， yt ）），（1）其中是确定扰动大小的参数。2.1.2基本迭代法基本迭代法（BIM）是FGSM的迭代版本。该方法以较小的扰动大小多次应用FGSM，而不是以一个大的扰动大小应用对抗性噪声。BIM的对抗性示例生成为Xadv=X，不幸的是，Carlini和Wagner进行了实验，证明这些检测方法中的大多数只是有效的，Xadv0=裁剪X，<${Xadv−αsign（<$XJ（Xadv，yt））}，（二）对小尺寸或只有几个类的图像数据集有效[5]。此外，Grosse然而，用于检测对抗性示例的神经网络也可以被旁路[5]。事实上，给定一种对抗性方法可以欺骗原始神经网络，Carlini et al.[5]表明，使用类似的方法，我们也可以欺骗扩展网络进行检测，我们称之为二次对抗攻击。在本文中，我们提出从隐写分析[27]的角度来检测对抗性示例，隐写分析是用于检测隐写术的技术。事实上，Goodfellow et al.[12]已经提供了关于对抗性示例的一个本质的见解，使得此外，我们提出了一种方法，以提高隐写分析功能，估计的概率造成的修改，对抗性攻击。实验结果表明，该方法能够准确地检测出对抗性样本。此外，二次对抗攻击很难直接对我们的方法进行，因为我们的方法不是基于神经网络，而是基于高维人工特征和FLD（Fisher线性判别）集成。N+1N N其中，ClipX，{X′}表示在每次迭代之后对像素值的裁剪。因此，结果停留在输入图像X的邻域中。这种攻击更强大，因为攻击者可以控制对抗性示例超过分类边界的程度事实证明，BIM在ImageNet上的攻击优于FGSM[18]。2.1.3深度傻瓜Deepfool是一种无针对性的攻击方法，通过迭代扰动图像来生成对抗性示例[23]。该方法探索最近的决策边界。在每次迭代中，图像被稍微修改以到达边界一旦修改后的图像改变了网络的分类，算法就会停止2.1.4卡利尼-瓦格纳法该方法以其作者的名字命名[6]。该攻击可以是有针对性的或无针对性的，并有三个度量其失真的指标（l0范数，l2范数和l∞范数）。作者指出，无目标的l2规范版本具有最好的4827性能它通过解决以下优化问题来生成对抗性示例：最小化fδ2+c·f（x+δ）只有当所有分类器都接受输入时才正常，但如果有任何分类器接受，则拒绝它。然而，卡里尼和瓦格纳进行了实验，以证明李δS.T.x+ δ∈[ 0，1]n（三）Grosse等人[13]提出对抗性再训练的一个变体。与其试图将对抗性这种攻击是寻找l2范数所能度量的最小扰动，同时使网络对图像进行错误分类c是平衡等式（3）的两个部分的超参数。选择c的最佳方法是使用c的最小值，使得所得解x+δ具有f（x+δ）≤0。f（x）是用于测量输入图像和对抗图像之间的距离f（x）定义为：f（x）= max（Z（x）true− max {Z（x）i}，−κ）。（四）i/=trueZ（x）是预softmax分类结果向量。κ是一个超参数，称为置信度。更高的置信度鼓励攻击搜索分类置信度更强的对抗性示例。高置信度攻击通常具有更大的扰动和更好的转移到其他模型的能力。C W方法是一种很难防御的强2.2. 基于鲁棒性的防御基于鲁棒性的防御旨在正确地分类敌对示例。有许多方法可以实现基于鲁棒性的防御。对抗训练是通过使用训练集中的正常和对抗样本的混合来训练一个更好的网络，以进行数据增强[12]。预处理输入图像是执行一些操作以去除对抗性扰动，例如主成分分析（PCA）[3]、JPEG压缩[7]、添加噪声、裁剪、旋转等。防御性蒸馏通过利用蒸馏训练技术隐藏了pre-softmax层和softmax输出之间的梯度[26]。混淆梯度使攻击者难以计算出可行梯度来生成对抗性示例[2]。2.3. 基于检测的防御基于检测的防御旨在区分正常图像和敌对示例。Hendrycks Gimpel [16]利用PCA来检测对抗性样本，发现对抗性样本对较大的主成分的权重高于正常图像。然而，Carlini和Wagner证明了HendrycksLi等人。[19]将PCA应用于神经网络的内卷积层之后的值，并使用级联分类器来检测对抗性示例。具体来说，他们建议建立一个级联分类器，示例正确时，它们引入了一个额外的类，仅用于对抗性示例，并重新训练网络以将对抗性示例分类为新类。Gong等人[11]提出了一种非常相似的辩护方法。然而，Carlini和Wagner重新实现了这两种防御，并发现它们仅对MNIST有效[5]。Bhagoji等人[3]利用PCA来降低图像的维数。然后，他们不是在原始图像上训练，而是在经过降维然而，这种防御仅对MNIST有效[5]。Feinman等人[9]利用高斯混合模型对神经网络最终隐藏层的输出进行建模，并声称对抗样本属于与正常图像不同的分布。然而， Carlini 和 Wagner 证明了FeinmanMetzen等人[22]通过查看网络的内部卷积层来检测对抗性示例。它们用检测神经网络来增强分类神经网络，该检测神经网络从分类网络的各个中间层获取输入然而，这种防御仅对CIFAR-10有效[5]。Lu等人[21]假设对抗性示例在网络中产生与正常图像不同的ReLU激活模式基于这一假设，他们提出了径向基函数SVM（RBF-SVM）分类器，该分类器利用网络后期 ReLU 计算的离散代码来检测 CIFAR-10 和ImageNet上的对抗性示例。Xu等人。[32]提出了一种称为特征挤压（FS）的方法来检测对抗性示例。它们减少每个像素的颜色位深度，并通过空间滤波器对其进行平滑，然后通过测量压缩样本和原始样本的预测向量之间的不一致性来识别对抗样本。Liang等人[20]将对抗性扰动视为一种噪声，采用标量量化和平滑空间滤波来降低其对抗性影响。然后，通过比较输入样本与去噪样本的分类结果，检测出具有攻击性的样本我们将这种方法称为降噪（NR）。对于实际应用，我们可以部署基于检测的防御与基于鲁棒性的防御相结合首先，我们使用基于检测的防御来检测输入图像。如果是正常的图片，我们会直接把它喂给原图4828i、jzzi、jIJIJIJDNN 否则，我们可以利用基于鲁棒性的防御来减轻对抗性示例。3. 该方法其中x，y∈ {−T，. . .，T}。二阶检测特征F2nd经由二阶马尔可夫过程对差异阵列A进行对于水平方向，这导致对抗攻击和图像隐写术→x，y，z→i，j+2→i，j+1=y，A→=z）（6）对像素值进行扰动，这改变了像素之间的依赖性。隐写分析通过对自然图像中相邻像素之间的相关性进行建模，可以有效地检测隐写术所引起的修改。因此，我们还可以利用隐写分析来识别由于对抗性攻击而导致的偏差。假设我们已经知道攻击者使用的攻击方法在实践中，我们其中x，y，z∈ {−T，. . .，T}。为了降低转移概率矩阵的维数，我们只考虑有限范围内的因此，我们只计算[−T，T]内对的转移概率矩阵。我们分别对水平矩阵和垂直矩阵取平均，然后对对角矩阵取平均，以形成最终的特征集F 1st，F 2nd。平均样本马尔可夫转移概率矩阵的表达式为：F1，…k=（M →+ M ← + M ↑+ M ↓）/4可以部署一系列针对各种主流对抗性攻击训练的检测器。我们的检测方法Fk+1，...，2K=（M+M+M+M）/4（7）由对抗性攻击引起的像素值的扰动改变了像素之间的依赖性。通过对自然图像中相邻像素之间的差异进行建模，我们可以识别由于对抗性攻击而导致的偏差。首先，我们使用过滤器来抑制输入图像的内容。滤波图像的相邻像素之间的相关性被建模为高阶马尔可夫链[30]。然后，转移概率矩阵被用作向量- tor特征，用于使用机器学习算法实现的基于特征的检测器。我们推荐两种隐写分析特征集来检测对抗性示例：一个是686特征的低维模型SPAM [27];另一种是具有34671个特征的高维模型空间丰富模型（SRM）[10]。3.1. 特征提取3.1.1垃圾邮件SPAM描述如下。首先，我们在空间域中计算八个方向-s{←，→，↓，↑，}上像素之间的转移概率。我们总是沿着同一方向计算差异和转移概率。例如，计算从左到右的水平方向差其中，对于第一阶检测特征，k=（2T+1）2，对于第二阶检测特征，k=（2T +1）3。我们可以看到，马尔可夫模型的阶数和差的范围T控制了我们的检测模型的维数对于二阶，我们使用T=3，得到2k=686个特征[27]。3.1.2空间丰富模型空间丰富模型（SRM）可以被视为SPAM的扩展版本，通过从图像中提取残差[10]。我们使用一个像素预测器从像素的直接邻居，SRM使用45个不同的像素预测器。像素预测器是线性的或非线性的。每个线性预测器是由核矩阵K（pred）描述的移位不变有限脉冲响应滤波器。残差Z =（z kl）是具有与X相同维度的矩阵：Z=K（pred）<$X −X=<$K<$X，（8）其中符号X表示具有X镜像填充的卷积因此，K<$X具有与X相同的维数。例如，一个简单的线性残差是Xi，j+1−Xi，j，这是一对由A=Xi，j−Xi，j+1，其中X是具有水平相邻像素。在这种情况下，剩余的克尔-i、j大小为m×n，Xi，j是位置（i，j）处的像素.nel是K=−11Σ，这意味着像素值为对于i∈ {1，. . .，m}，j∈ {1，. . .，n-1}。二是使用马尔可夫链之间的差异对（第一或-一阶链）或三元组（二阶链）来沿八个方向对像素依赖性进行建模。一阶检测特征F1st通过以下方式对差分阵列A进行建模：一阶马尔可夫过程对于水平方向，这导致被预测为其水平相邻像素。SRM通过取最多五个残差的最小值或最大值来获得非线性预测器，这些残差是通过使用线性预测器获得的。例如，我们可以从其水平或垂直相邻pix预测像素Xi，j埃尔斯角一个人在这里。水平方向和垂直方向残差Z（h）=H ，Z（v）=v→x为oh→i，j+1=x|A→= y）（5）z（h）=Xi，j+1−Xi，j，（9）M=P（A）=x|一M=Pr（A）：4829IJ−T，T不不z（v）=Xi+1，j − Xi，j.（十）我们可以使用这两个残差来计算两个非线性对于FGSM和BIM，当生成adversar时，对于输入图像的目标类yt的al示例，我们保存每个像素|，然后将它们归一化以获得梯度。|, and then normalize them to obtainthe gradi-（分钟）、（h）、（v）intmap f（|XJ（X，y t）|其中f nor（）是函数zij=minz（max）=maxzij，zij、z（h），z（v）、（11）、.（十二）将矩阵中的所有元素归一化为（0，1）。最后，计算L个敌对示例的梯度映射的平均值，以获得MPMP：ij ij ij ij之后，利用具有质心 Q-T ， T={-Tq ，（-T+1）q，. . .，Tq}，其中T> 0是整数阈值，q> 0是量化阈值。1ΣLP= L t=1f nor（|XJ（X，y t）|），（十五）步骤：rij=<$Q−T，T（zij），<$i，j.（十三）其中P是m×n矩阵，其中元素Pi，j是像素X i，j的修改概率。对于C W，它不会生成对抗性的例子下一步是第四或第四梯度的共生矩阵，MPM的估计通过计算der，C（SRM）∈Q4，由四个（水平-在正常图像X和y和垂直）相邻的量化残差Rij从整个图像：m，n−3adv示例Xadv：D t=X adv− X。（十六）SRMd0d 1d 2d 3i，j=1[ri，j=dk，dk=0，. . . ，3]，（14）然后将所有元素的绝对值保存在不同的将数组D t进行归一化以获得差异映射f nor（|D t|）的情况。最后，计算出其中dk∈Q−T，T和[B]是艾弗森括号，如果陈述B为真，则为1，否则为0联盟L个对抗示例的差异映射以获得MPM：ΣL所有同现矩阵的总维数为34671。3.2. 功能增强1P= L t=1f或（|D t|）的情况。（十七）上述提取隐写分析特征的方法没有考虑由对抗性攻击引起的修改像素的位置。显然，如果我们为修改位置的特征分配更大的权重，检测率将得到提高。虽然我们不能得到精确的修改位置，但我们可以估计每个像素的相对修改概率。为了进一步提高检测的准确性，我们提出通过估计由对抗性攻击引起的修改的概率来增强隐写分析特征。我们利用梯度幅度来估计修改概率，因为具有较大梯度幅度的像素具有较大的修改概率假设神经网络将图像分为N类。虽然我们无法知道攻击者会选择哪个目标类，但我们可以随机选择L个类别来生成L个目标对抗样本，然后根据这些目标对抗样本估计每个像素的修改概率所以我们把第t个（1≤t≤L）类作为目标类来计算输入图像X的梯度。我们将所有像素的修改概率的矩阵称为修改概率图（MPM）。请注意，我们生成的这些有针对性的对抗示例仅用于估计MPM，对于Deepfool，它只能生成非目标广告，在对抗示例中，我们通过计算正常图像X和对抗示例Xadv之间的差异阵列D来估计MPM：D=X adv− X。（十八）然后将所有元素的绝对值保存在差分数组D中，并将其归一化以获得MPM：C=0（|D|）的情况。（十九）以上描述是基于正常图像的MPM的估计。在实践中，检测器可以接收对抗性示例。实验结果表明，一幅正常图像和一幅对抗图像的MPM非常相似。图1显示了一个正常图像，一个对抗图像和它们的MPM（归一化为（0，255）以更清楚地显示）的示例3.2.1增强的SPAMC=4830x为oh考虑到MPM的影响，提出了增强型SPAM（ES-PAM）. SPAM与ES-PAM的区别在于我们在MPM的基础上构造了一个新的马尔可夫转移概率.例如，在水平方向上，可用于增强对抗性攻击的检测。马尔可夫转移概率M涉及4831x为ohx，y，z(a) 正常图像（b）正常图像(c)对抗图像（d）对抗图像图1.正常图像、对抗图像及其MPM的插图像素Xi，j、Xi，j+1和Xi，j+2。因此，我们以这种方式计算新的马尔可夫转移概率M ′→：小的修改概率，其对同现值的影响小于具有可能被改变的至少一个像素的组。形成ES- RM的其余过程ESRM与SRM具有相同的维数，即34671。3.3. 训练探测器我们基于特征的检测器的构建依赖于模式识别分类器。检测器被训练为使用FLD（Fisher线性判别）集成[17]和默认设置实现的二进制分类器。默认情况下，在相同的先验条件下，集成最小化总分类错误概率。我们通过最小化从训练集计算的测试误差的袋外估计来找到基础学习者的数量和随机子空间维度，因为它是对未知数据的测试误差的无偏估计[4]。4. 实验结果我们通过对自然图像中相邻像素之间的统计差异进行因此，我们的方法在MNIST和CIFAR-10上不能达到很好的性能，因为小尺寸的图像不能提供足够的样本来构建有效的特征。但是，它在ImageNet上具有良好的性能以前的工作表明，无目标攻击更容易被拒绝，导致更小的扰动，并更好地转移到M′→=M→·P·P·P.（二十）不同的型号。所以我们检测到非目标性的敌对性前-x为ohx为ohi、ji，j+1i，j+2示例来看看我们的方法的性能。类似地，对于二阶检测特征，新的马尔可夫转移概率M′→为我们通过FGSM，BIM，Deepfool和C W测试了我们的检测方法对非目标攻击的影响。我们的实验是在40000幅图像上进行的，这些图像是从图像中随机选择的′→x，y，z→x，y，z·Pi，j·Pi，j+1·Pi，j+2·Pi，j+3。（二十一）geNet（ILSVRC-2016）使用预训练的VGG-16模型[29]作为一个分类网络，它是用顶级-形成ESPAM的其余过程是相同的关于SPAMESPAM与SPAM具有相同的维数，即686。3.2.2增强型SRM增强型空间丰富模型（ESRM）的构建方式与SRM类似。不同之处在于，ESRM修改了形成共现矩阵的过程，以考虑MPM的影响：m，n−31精度。这导致25000个图像的训练集、5000个图像的验证集和10000个图像的测试集。这40000个图像的每个颜色通道的像素值的范围从0到255。对于BIM，我们使用α=1来确保我们在每个步骤中将每个像素改变1，并且λ≤8，其中λ是确定扰动大小的参数。对于Deepfool，我们应用l2范数版本。对于C W，我们使用l2范数版本并设置κ=0。在估计MPM的过程中，我们设置L=100。首先，来自ImageNet的40000张图像通过网络进行分类，以获得它们的真实标签。然后我们用这些ESRMd0d 1d 2d 3i，j=1Maxk=0，…，3Pi，j+k[ri，j=dk，k=0，. . . ，3]，（二十二）40000个图像生成40000个对抗图像作为广告我们实验的对抗性样本为了证明MPM在检测对抗性样本时是有效的，我们进行了-其中C（ESRM）是同现C（SRM）的增强版本。换句话说，我们不是将对应的同现bin增加1，而是将跨四个残差的修改概率的最大值添加到bin [8]。因此，如果一个组具有四个像素，M=MC=4832形成对比实验。我们构造两对探测器：SPAM和ESPAM、SRM和ESRM。每对探测器之间的唯一区别是一个带有MPM的探测器和另一个没有MPM的探测器。所有检测器都是在相同的对抗方法上训练和测试的。4833表1.对以往检测方法的初步评价检测方法有效在ImageNet上有效针对C W 无二次神经网络亨德里克斯✗✗C李C✗CGrosse✗C✗龚✗C✗[3]第一次见面✗✗CFeinman✗✗C[22]第二十二话✗✗✗RBF-SVM [21]C未知C[32]第三十二话CCC未报告[20]CCC表2.FGSM生成的正常图像及其对抗图像的检测率RBF-SVM [21]=2=4=6=8正常图像0.83400.89130.93050.9487对抗图像0.82580.89360.92430.9541[32]第三十二话=2=4=6=8正常图像0.94600.94720.94410.9455对抗图像0.40290.28560.20780.1715未报告[20]=2=4=6=8正常图像0.87740.86700.85380.8513对抗图像0.77520.69080.63240.5587垃圾邮件=2=4=6=8正常图像0.94880.95700.96510.9713对抗图像0.94320.95590.96280.9709ESPAM=2=4=6=8正常图像0.97250.97580.98120.9868对抗图像0.97040.97190.97510.9806SRM=2=4=6=8正常图像0.97570.98140.98310.9887对抗图像0.97850.98220.98610.9903ESRM=2=4=6=8正常图像0.98090.98390.99000.9931对抗图像0.98110.98660.99050.9938Carlini和Wagner指出，有必要使用对较硬数据集（如 ImageNet ）的强大攻击来评估防御。此外，Carlini和Wagner证明了使用第二个神经网络来识别对抗性样本是最无效的防御[5]。因此，我们只将我们的方法与在ImageNet上有效的防御进行比较，而不是基于另一个神经网络。表1示出了对先前检测方法的初步评估：是否对ImageNet有效，是否对C& W有效以及是否没有第二个神经网络。如表1所示，李Hendrycks表3.BIM生成的正常图像及其对抗图像的检测率RBF-SVM [21]=2=4=6=8正常图像0.77490.86600.91450.9362对抗图像0.79750.87520.90720.9330[32]第三十二话=2=4=6=8正常图像0.94570.94400.94660.9451对抗图像0.62810.35470.25920.2134未报告[20]=2=4=6=8正常图像0.88020.87420.85990.8530对抗图像0.82100.74110.67250.6143垃圾邮件=2=4=6=8正常图像0.94020.94850.95590.9606对抗图像0.94110.94740.95450.9601ESPAM=2=4=6=8正常图像0.97080.97370.97490.9760对抗图像0.96380.96750.97250.9745SRM=2=4=6=8正常图像0.96670.97060.97530.9802对抗图像0.96970.97240.97620.9812ESRM=2=4=6=8正常图像0.97120.97540.98110.9878对抗图像0.97160.97670.98200.9879表4.Deepfool生成的正常图像及其对抗图像的检测率正常图像对抗图像RBF-SVM [21]0.58380.6012[32]第三十二话0.94760.7441未报告[20]0.90210.9208垃圾邮件0.85530.8481ESPAM0.86900.8572SRM0.94450.9491ESRM0.94980.9527表5.C W生成的正常图像及其对抗图像的检测率正常图像对抗图像RBF-SVM [21]0.53320.5187[32]第三十二话0.94850.8933未报告[20]0.91100.9226垃圾邮件0.69570.6778ESPAM0.74670.7563SRM0.88140.9092ESRM0.92330.9341表6.C W产生的二次对抗攻击的检测率垃圾邮件ESPAMSRMESRM对抗图像0.66690.72460.89440.9150Grosse4834第二个神经网络将图像分类为正常或对抗。RBF-SVM[21]在ImageNet上具有良好的性能，即使没有评估其对CW的性能。FS [32]和NR [20]声称在检测CW时具有良好的性能。因此，我们将我们的检测器与RBF-SVM，FS和NR进行了比较。图2.检测器对FGSM的平均检测率图3.检测器对BIM的平均检测率检测敌对样本的实验结果如表2，3，4，5所示。表2，3，4，5的数据为正常图像和对抗图像的检出率。图2和图3通过平均检测正常图像和对抗图像的检测率来说明这些检测器的性能。首先，实验结果表明，采用MPM的检测器具有更高的检测率。MPM对S-PAM的增溶作用强于SRM.当检测FGSM和BIM时，ESPAM甚至具有与SRM相当的性能。也就是说，我们甚至可以使用低维模型通过增强方法实验结果表明，C W方法生成的对抗性样本难以检测RBF-SVM对C W几乎无效。SPAM和SRM在检测C W时检测率相对较低然而，MPM将SPAM提高了7%以上，ESRM在检测C W产生的对抗性示例FS和NR使用ESRM实现了与C W相当的性能。不幸的是，FS和NR的检测率比FGSM和BIM低我们怀疑FS和NR对FGSM和BIM不太有效的原因是FS和NR只适合于减轻小的对抗性扰动。相反，ESRM在检测由FGSM、BIM、Deepfool和C W生成的对抗性示例时的检测率最高。然而，SRM和ESRM的计算时间要长得多，因为它们的高维特征。5. 二次对抗性攻击由于检测模型的结构不是神经网络，所以二次对抗攻击很难直接对我们的方法逃避检测我们的方法的一个直接想法是减少对抗性扰动的数量。然而，这种策略也会削弱对抗性示例误导DNN的能力。为了验证这一点，我们尝试通过移除10%的由C W生成的非目标对抗性扰动如表6所示，ESRM的检出率从93.41%下降到91.50%。但二次攻击对抗样本欺骗网络的成功率从99.03%下降到45.27%。6. 结论受Goodfellow et al.[12]“对抗性样本可以被认为是一种偶然的隐写术”，我们提出将隐写分析应用于检测对抗性样本。我们还提出了一种方法来增强隐写分析功能。实验结果表明，该方案能准确检测包括C W方法在内的各种对抗性攻击此外，二次对抗攻击[5]很难直接对我们的方法进行，因为我们的检测模型的结构不是神经网络。我们的方法在计算机视觉和隐写分析的对抗性例子之间建立了相关联系，并可能在这个方向上引发更多有前途的工作作为未来工作的一个想法，一个更好的二次攻击可以尝试添加扰动，保持相邻像素之间的依赖性。致谢本工作得到了中国自然科学基金U1636201和61572452 基金以及安徽省量子信息技术研究中心AHY150400基金的部分支持。4835引用[1] Dario Amodei，Rishita Anubhai，Eric Battenberg，Car-lCase ， Jared Casper ， Bryan Catanzaro ， JingdongChen ， Mike Chrzanowski ， Adam Coates ， GregDiamos，et al.深度语音2：英语和汉语的端到端语音识别。在国际机器学习会议上，第173-182页[2] Anish Athalye，Nicholas Carlini，and David Wagner.模糊渐变会给人一种错误的安全感：规避对抗性例子的防御。arXiv预印本arX- iv：1802.00420，2018。[3] Arjun Nitin Bhagoji，Daniel Cullina和Prateek Mittal。机器学习分类器中的模糊性约简作为对逃避攻击的防御。arXiv预印本arX- iv：1704.02654，2017年。[4] 利奥·布莱曼装袋预测器。Machine learning，24（2）：123[5] 尼古拉斯·卡利尼和大卫·瓦格纳。对抗性的例子不容易被发现：绕过十种检测方法。第10届ACM人工智能与安全研讨会论文集，第3-14页。ACM，2017。[6] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性。在安全和隐私，2017年。[7] Nilaksh Das，Madhuri Shanbhogue，Shang-Tse Chen，Fred Hohman，Li Chen，Michael E Kounavis，and DuenHorng Chau.把坏人挡在外面：使用jpeg压缩保护和接种深度学习。arXiv预印本arX- iv：1705.02900，2017年。[8] 托马斯·德内马克、瓦·艾德·塞迪吉、沃伊泰克·霍卢布、雷米·科格拉内和杰西卡·弗里德里奇。基于选择通道感知的数字图像隐写分析富模型。在InformationForensicsand Security（WIFS），2014年IEEE国际研讨会上，第48-53页。IEEE，2014。[9] Reuben Feinman，Ryan R Curtin，Saurabh Shintre，andAn- drew B Gardner.从伪像中检测对抗样本。arXiv预印本arXiv：1703.00410，2017。[10] Jessica Fridrich和Jan Kodovsky丰富的数字图像隐写分析模型 IEEE Transactions on Information Forensics andSecurity，7（3）：868[11] 龚志涛，王文禄，顾伟信。负面数据和干净数据不是一对孪生兄弟。arXiv预印本arX- iv：1704.04960，2017年。[12] Ian J Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。 arXiv 预印本 arXiv ：1412.6572，2014。[13] Kathrin Grosse、Praveen Manoharan、Nicolas Papernot、Michael Backes和Patrick McDaniel。关于对抗性示例的（统计）检测。arXiv预印本arX- iv：1702.06280，2017年。[14] Shixiang Gu和Luca Rigazio。走向对对抗性示例鲁棒的深度神经网络架构。2015年国际学习表征会议[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition，第770-778页[16] 丹·亨德里克斯和凯文·金佩尔。检测对抗性图像的早期方法arXiv预印本arXiv：1608.00530，2016年。[17] JanKod o vs ky，JessicaFridrich，andVojt epuerchHolu b.用于数字媒体隐写分析的集成分类器。IEEE Trans-actions on Information Forensics and Security，7（2）：432[18] Alexey Kurakin，Ian Goodfellow，and Samy Bengio.物理世界中的对抗性例子。2017年国际学习表征会议[19] 李欣和李福欣使用卷积滤波器统计的深度网络中的对抗性示例检测在IEEE计算机视觉国际会议论文集，第5764-5772页[20] 梁斌，李洪成，苏妙强，李喜荣，石文昌，王晓峰.在具有自适应降噪的深度神经网络中检测对抗性图像示例。 IEEE Transactions on Dependable and SecureComputing，2018。[21] Jiajun Lu，Theerasit Issaranon，and David Forsyth.安全-泰尼特：鲁棒地检测和拒绝对抗性样本。在IEEE计算机视觉国际会议上，第446-454页[22] Jan Hendrik Metzen、Tim Genewein、Volker Fischer和Bastian Bischoff。关于侦测对抗性干扰。2017年国际学习代表会议[23] Seyed Mohsen Moosavidezfooli，Alhussein Fawzi，andPas- cal Frossard.Deepfool：一种简单而准确的欺骗深度神经网络的方法。在计算机视觉和模式识别中，第2574-2582页[24] Nicolas Papernot、Patrick McDaniel、Ian Goodfellow、Somesh Jha、Z Berkay Celik和Ananthram Swami。针对机器学习的实际黑盒攻击。在2017年ACM亚洲计算机和通信安全会议上，第506-519页。ACM，2017。[25] 作者：张晓刚，张晓刚 . Berkay Celik 和 AnanthramSwami深度学习在对抗环境中的局限性。在IEEE欧洲安全和隐私研讨会上，第372- 387页[26] Nicolas Papernot、Patrick McDaniel、Xi Wu 、SomeshJha和Ananthram Swami。蒸馏作为对深度神经网络的不利扰动的防御在安全和隐私（SP），2016年IEEE研讨会上，第582597. IEEE，2016.[27] 汤姆·玛的女儿帕特里克·巴斯和杰西卡·弗里德里奇。用像素邻接矩阵减法进行图像分析 IEEE Transactions onInformation Forensics and Secu

下载后可阅读完整内容，剩余1页未读，立即下载