深度学习中的对抗鲁棒性评估与研究（20字）

176 浏览量更新于2023-10-25 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

321图像分类董银鹏1，付启安1，肖扬1，庞天宇1，苏航1，肖子豪2，朱军11个部门的Comp.Sci. 技术，BNRist Center，Institute for AI，THBI Lab1清华大学，北京，1000842 RealAI{dyp17，fqa19，yangxiao19，pty17} @ mails.tsinghua.edu.cn，{suhangss，dcszj} @tsinghua.edu.cn，zihao. realai.ai摘要深度神经网络易受对抗性样本的攻击，这成为深度学习发展中最重要的研究问题虽然近年来已经做了很多努力，但对对抗性攻击和防御算法进行正确和完整的评估具有重要意义。在本文中，我们建立了一个全面的，严格的，连贯的基准来评估对抗鲁棒性的图像分类任务。在简要回顾了大量有代表性的攻击和防御方法后，我们以两条鲁棒性曲线作为公平的评价标准进行了大规模的实验，以充分了解这些方法的性能基于评估结果，我们得出了几个重要的结论，可以为未来的研究提供启示，包括：1）模型之间的相对鲁棒性可以在不同的攻击配置中变化，因此鼓励采用鲁棒性曲线来评估对抗鲁棒性：2）作为最有效的防御技术之一，对抗训练可以在不同的威胁模型中推广; 3）基于随机化的防御对基于查询的黑盒攻击更鲁棒。1. 介绍深度学习（DL）模型容易受到对抗性示例的影响[53，19]，这些示例是恶意生成的，以引入错误的预测。由于DL模型已经被集成到各种安全敏感的应用中（例如，自动驾驶、医疗保健和金融），对抗鲁棒性问题的研究已经吸引了越来越多的关注，提出了大量的对抗攻击和因此，对这些方法进行正确和严格的评估至关重要，以了解它们的优缺点，比较它们的性能，并为构建新方法提供见解[5]。对抗鲁棒性的研究面临着攻击和防御之间的辩护苏航和朱军为通讯作者。提出的防止现有攻击的方法很快就被新的攻击所规避，反之亦然[6，7，22，1，55，65]。例如，防御蒸馏[41]被提出来提高对抗鲁棒性，但后来被证明对强攻击无效[7]。引入了许多方法来通过产生模糊的gra来构建鲁棒的模型，这可以被自适应的方法击败[1，55]。因此，了解它们的影响，确定真正的进展并推进该领域尤其具有挑战此外，目前的攻击和防御往往是不完整的评估。首先，大多数防御只在有限的威胁模型下针对一小部分攻击进行测试，许多攻击都是在少数几个模型或防御上进行评估的其次，鲁棒性评价指标过于简单，无法显示这些方法的性能。针对给定扰动芽集[29]的攻击防御的准确性和对抗性扰动的最小距离[4]被用作主要评估指标，这通常不足以完全表征攻击和防御的行为。因此，不完整的评价无法全面了解这些方法的优点和局限性。在本文中，我们建立了一个全面，严格和一致的基准来评估对抗鲁棒性，这可以详细了解现有方法在不同场景下的效果，希望有助于未来的研究。特别是，我们专注于鲁棒性的图像分类器下的BMP-norm的威胁模型，其中大量的工作已经投入。我们结合了许多典型的和最先进的攻击和防御方法进行鲁棒性评估，包括15种攻击方法和16种防御模型-CIFAR-10上的8种[27]和ImageNet上的8种[46]。为了充分证明这些方法的性能，我们采用了两个互补的鲁棒性曲线作为主要的评价指标来呈现结果。在此基础上，对非入侵检测系统的攻击和防御方法进行了大规模的交叉评价实验，完整的威胁模型，包括1）非目标性攻击和目标性攻击;2）基于攻击的攻击; 3）白盒攻击、基于传输的攻击、基于分数的攻击和基于决策的攻击。322Jǁ −ǁ ≤∈X <$Y {}X → Y通过对定量结果的分析，我们得到了一些重要的发现。第一，在不同扰动预算或攻击迭代下，防御对攻击的相对鲁棒性可能不同。因此，很难得出结论，通过使用特定的配置，防御比另一种防御更强大。然而，这是常见的在以前的作品。其次，尽管已经提出了各种防御技术，但最强大的防御仍然是对抗性训练的模型。他们的鲁棒性为了实现对手的目标，可以采用两种策略来制作具有小扰动的对抗性示例。第一个试图制作一个对抗性的例子xadv，满足xadvxp，其中p是扰动预算，同时误导模型。这可以通过求解约束优化问题来实现。例如，对手可以通过最大化损失函数（例如，交叉熵损失），也可以推广到其他威胁模型，在这些模型下，它们没有被训练成健壮的。第三，基于随机化的防御通常对基于查询的黑-xadv=arg maxx′：<$ x′−x<$p≤<$J（x′，y）.（一）盒子攻击更多的讨论可以在第二。五点三。我们开发了一个新的对抗鲁棒性平台，RealSafe1进行所有评估实验，因为我们称之为有约束条件的对抗性例子扰动第二种策略是通过找到最小扰动来生成对抗性示例，现有平台（例如，[44]第44话：我的世界不能完全支持我们的评估（见附录A）。我们xadv=arg minx′：x′是adversarialx′-x（二）希望我们的平台能够不断的融合和评估更多的方法，为以后的工作提供帮助。2. 威胁模型精确定义威胁模型是进行对抗鲁棒性评估的基础.根据[5]，威胁模型指定了对手的目标，能力和知识，在此基础上进行攻击并建立强大的防御。我们首先定义的符号，然后说明威胁模型的三个方面。分类器可以表示为C（x）：，其中xRd是输入，并且=1，2，...，其中L是类的数量。令y表示x的地面真值标签，xadv表示x的对抗示例。2.1. 对手对手可以有不同的目标来生成对抗性示例。我们在本文中研究了无目标和有目标的对抗示例一个非目标的不利示例旨在引起分类器的错误分类，如C（xadv）y。一个目标被精心制作成被分类器误分类为对手所需的目标类，如C（xadv）=y，其中y是目标类。2.2. 对手由于对抗性示例通常被假设为与对应的原始示例对人眼是不可区分的[53，19]，因此对手只能对输入进行微小的更改。在本文中，我们研究了定义良好且广泛使用的BLP范数威胁模型，尽管也存在其他威胁模型[58，51，18]。在BMP-norm威胁模型下，允许对手添加一个小的扰动由原始输入的BFP范数测量。具体地说，我们考虑了范数的∞和∞2。1代码发布于：https://github.com/thu-ml/realsafe。我们称之为具有优化扰动的对抗性示例然而，它通常是难以解决的方程。（1）Eq.（2）精确，因此已经提出了各种攻击方法来获得近似解。2.3. 对手攻击者可能对目标模型有不同程度的了解，从对模型架构和参数的白盒访问到对训练数据或模型预测的基于对模型的不同认识，我们考虑了四种攻击场景，包括白盒攻击、基于传输的攻击、基于分数的攻击和基于决策的黑盒攻击。白盒攻击依赖于目标模型的详细信息输入.对于防御，对手可以通过考虑特定的防御机制来设计自适应攻击。基于转移的黑盒攻击基于对抗性转移性[40]，其假设训练数据的可用性。它被用来训练一个替代模型，从中生成对抗性示例。基于得分的黑盒攻击只能通过查询目标模型来获取输出概率。基于决策的黑盒攻击仅仅依赖于查询的预测类基于分数和基于决策的攻击也受到对目标模型的有限数量的查询的限制。3. 次攻防在这一节中，我们总结了典型的对抗性攻击和防御方法。3.1. 攻击方法白盒攻击：大多数白盒攻击基于输入梯度制作对抗性示例。对于求解Eq.（1）快速梯度符号法（FGSM）[19]将输入空间中的损失函数线性化，并生成323N一步更新的对抗性例子。基本迭代法（BIM）[28]通过迭代地采取多个小梯度步骤来扩展FGSM。与BIM类似，投影梯度下降法（PGD）[34]作为具有随机开始的为了解决方程。（2），DeepFool[35]已被提出来生成具有最小扰动的对抗性示例。Carlini Wagner&然而，一些防御可以通过引起混淆梯度来抵抗这些基于梯度的攻击[1]。为了规避它们，对手可以使用BPDA[1]在真实梯度不可用或无用时提供近似梯度，或者在梯度随机时使用EOT[2基于转移的黑盒攻击：基于转移的-tacks手工制作对抗性的例子来对抗替代模型，这可能会欺骗基于可转移性的黑盒模型。已经提出了几种方法来提高可移植性。动量迭代法（MIM）[14]将动量项集成到BIM中，以在攻击迭代期间稳定更新方向多样输入方法（DIM）[62]将随机调整大小和填充的输入的梯度应用于对抗性示例生成。防御不变方法（TI）[15]进一步提高了防御模型的可移植性。基于分数的黑盒攻击：在此设置下，尽管对模型梯度的白盒访问不可用，但可以通过查询由无梯度方法估计。ZOO[8]通过有限差分估计每个坐标处的梯度，并基于估计的梯度采用 CW 进行攻击。 NES[24]和SPSA[55]可以在抽取随机样本并获取相应损失值的基础上给出完整的梯度估计。先验引导的随机梯度自由方法（P-RGF）[10]使用基于转移的先验更准确地估计梯度ATTACK[30]不估计梯度，但学习以输入为中心的高斯分布，因此从中提取的样本可能是对抗性的。基于决策的黑盒攻击：该设置更具挑战性，因为该模型仅提供离散的硬标签预测。边界攻击[3]是基于决策边界上的随机游走的第一种方法。基于优化的方法[9]将此问题公式化为连续优化问题，并估计梯度以解决它。进一步提出了基于进化策略的进化攻击方法[16]来提高查询效率。3.2. 防御由于对抗性样本的威胁，人们对建立鲁棒模型以抵御对抗性攻击进行了本文将防御技术大致分为五大类，包括：强大的训练，输入转换，随机化，模型集成和认证防御。请注意，这些防御类别不是排他性的，即，辩护可以有很多种。下面我们介绍每一个类别。强大的培训：鲁棒训练的基本原则是使分类器对小噪声具有鲁棒性。其中一项工作是对抗训练[19，54，34，25，66]，其通过对抗性示例来增强训练数据另一种工作是通过其他损失或正则化来训练鲁棒模型，包括网络Lipschitz常数[11]，输入梯度[23，45]，扰动范数[64]或Max-Mahalanobis中心损失[36]的变体。输入转换：几种防御方法在将输入馈送到分类器之前对其进行转换，包括JPEG压缩[17]，位深度减少[63]，总方差最小化[20]，基于自动编码器的去噪[31]，以及通过生成模型将对抗性示例投影到数据分布上[47，50]。然而，这些防御可能会导致破碎的梯度或消失/爆炸梯度[1]，这可以通过自适应攻击来规避。随机化：分类器可以是随机的，以减轻对抗效应。随机性可以添加到输入[60，38]或模型[13，32]中。随机性也可以通过贝叶斯神经网络建模作品[33]这些方法部分依赖于随机梯度来防止对抗性攻击，并且可以被期望超过随机梯度的攻击击败[22，1]。Model Ensemble: An effective defense strategy in prac-tice is to construct an ensemble of individual models [29].除了将每个模型的输出聚合到集成中之外，还提出了一些不同的集成策略随机自集成[32]对注入模型的随机噪声的预测进行平均，这相当于集成无限数量的噪声模型。Pang等人[37]建议促进不同模型的预测之间的多样性，并引入自适应多样性促进正则化器来实现这一点。认证防御：有很多关于训练认证防御的作品[42，49，56，57，43，59]，这些作品可以证明对对抗性攻击是鲁棒的。在某些威胁模式下。最近，经过认证的防御[67，12]可以应用于ImageNet [46]，显示了这种类型防御的可扩展性。4. 评价方法随着越来越多的对抗性攻击和防御被提出，对这些方法的正确和严格的评估变得越来越重要，以帮助我们更好地了解这些方法的优势和局限性。然而，由于评价不准确或不全面，对这些方法的效果仍缺乏全面的了解为了解决这个问题，并进一步324一一i=1AN联系我们CIFAR-10 [27]ImageNet [46]防御模型类别预期威胁Acc.防御模型类别预期威胁Acc.第五十六号决议[21]自然训练-92.6[52]第五十二话自然训练-78.0PGD-AT [34]有力的培训∞（87.3ENS-AT [54]有力的培训∞（73.5[64]第六十四话有力的培训ℓ279.7阿尔普[25]有力的培训∞（49.0贸易[66]有力的培训∞（∞= 0.（031）84.9[61]第六十一话有力的培训∞（64.3凸[57]（认证）强有力的培训∞（66.3JPEG压缩格式[17]输入变换一般77.3JPEG压缩格式[17]输入变换一般80.9[63]第六十三话输入变换一般61.8RSE [32]随机的&合奏ℓ286.1R P [60]（input）rand.一般77.0ADP [37]合奏一般94.1RandMix [67]（certified input）rand.一般52.4表1：我们展示了纳入对抗性鲁棒性评估基准的防御模型。我们还展示了防御类型，原始预期的威胁模型（即，在原始论文中，防御被训练为鲁棒或评估的威胁模型;“一般”意味着防御可以用于任何威胁模型），以及每种方法在干净数据上的准确度由我们自己重新计算。有关其模型架构的更多详细信息，请参见附录B。为了推进该领域的发展，我们建立了一个全面，严格和一致的基准来评估对抗鲁棒性。我们在两个图像数据集上集成了15种攻击方法和16种防御模型，在我们的基准测试中进行鲁棒性评估。我们还采用了两个互补的鲁棒性曲线作为公平的评价指标。4.1. 评估指标给定一个攻击方法n，p，它生成一个对抗样本xadv=n，p（x），输入x的扰动预算n在n，p范数2下，和一个（防御）分类器C定义在SEC中。2、分类器对抗攻击的准确率定义为表2：我们展示了在我们的对抗鲁棒性评估基准中实现的攻击方法我们还显示了对手代表无目标;1Acc（C，A，p）=NΣNi=1.Σ1C（Ai，p（xi））=yi，焦油代表目标）、能力（约束或优化扰动）和每种攻击方法的距离度量。袭击的原因为了生成这样的曲线，我们需要计算其中xi，y iN是测试集，1（）是指示函数。对分类器的非目标攻击的攻击成功率定义为：对于所有值的攻击成功率。这可以有效地完成的攻击，找到最小的扰动，通过计数的对抗性的例子，其扰动的BLP范数小于1Asr（A，p，C）=M其中M=NΣNi=1..Σ1C（xi）=yi<$C（A，p（xi））/=yi，Σ每个人都是对于使用约束扰动来制作对抗性示例的攻击，我们对攻击进行二分搜索，以找到其最小值，从而使生成的对抗性示例一个典型的例子来实现对手i=11C（xi）=yi，而攻击成功有针对性的攻击率定义为第二条曲线是准确率（攻击成功率）vs.攻击强度曲线，其中攻击强度是de-1ΣNAsr（m，p，C）=i=1.Σ1C（A，p（xi））=yi.根据不同的攻击方法，以迭代次数或模型查询的次数来确定该曲线可以显示攻击的效率，以及分类器对攻击的抵抗力其中y i是对应于xi的目标类。以前的方法通常报告逐点AC-精确度或攻击成功率的一些选定的扰动预算的波动，这可能不完全反映他们的行为。本文采用两条互补的鲁棒性曲线，清晰、全面地展示了分类器对攻击的鲁棒性和抵抗力，以及攻击对分类器的有效性和效率第一个是准确性（攻击成功率）与扰动预算曲线，它可以给出一个全局的理解的鲁棒性的分类器和有效性2对于找到最小扰动的攻击，例如，DeepFool，C& W，我们让A，p（x）= x，如果扰动的范数大于。攻击，例如，尽管两个模型的最坏情况准确度都为零，但是对于100次迭代的攻击，其准确度下降到零的防御被认为比被10次迭代的相同攻击完全破坏的另一防御更能抵抗该攻击4.2. 评估的数据集和算法数据集：我们使用CIFAR-10 [27]和ImageNet [46]数据集在本文中进行对抗鲁棒性评估我们使用包含10，000张CIFAR-10图像的测试集，并从ImageNet验证集中随机选择1，000张图像进行评估。对于每个图像，我们选择一个目标类均匀地超过所有其他类，攻击方法知识目标能力距离FGSM [19]白色转移un. &tar.约束∞，BIM [28]白色转移un. &tar.约束∞，MIM [14]白色转移un. &tar.约束∞，[35]第三十五话白色un.优化∞，C W [7]白色un. &tar.优化ℓ2DIM [62]转移un. &tar.约束∞，动物园[8]评分un. &tar.优化ℓ2NES [24]评分un. &tar.约束∞，SPSA [55]评分un. &tar.约束∞，[30]第三十话评分un. &tar.约束∞，边界[3]决定un. &tar.优化ℓ2进化论[16]决定un. &tar.优化ℓ2325N攻击RES-56PGD-ATDeepDefense交易凸JPEGRSEADPFGSM0的情况。005/21。占6%0的情况。039/560%的百分比0的情况。001/9. 百分之二0的情况。047/60百分之九0的情况。017/36. 占6%0的情况。012/31. 百分之二0的情况。020/29. 0%的百分比0的情况。037/560%的百分比白色BIMMIM0的情况。002/0。0%的百分比0的情况。003/0。0%的百分比0的情况。030/48百分之三0的情况。032/50百分之九0的情况。001/0。0%的百分比0的情况。001/0。0%的百分比0的情况。037/56百分之八0的情况。040/58百分之一0的情况。016/34. 百分之三0的情况。016/34. 百分之九0的情况。008/3. 百分之二0的情况。008/6. 百分之一0的情况。018/23. 百分之五0的情况。019/25. 百分之一0的情况。008/12. 百分之二0的情况。010/16. 占7%DeepFool0的情况。003/0。0%的百分比0的情况。040/56百分之五0的情况。001/0。0%的百分比0的情况。047/60占6%0的情况。015/32. 百分之九0的情况。007/3。百分之一0的情况。021/35。百分之九0的情况。016/28. 占7%FGSM0的情况。067/72。百分之九0的情况。067/71。百分之三0的情况。048/62百分之一0的情况。087/73。占6%0的情况。050/57百分之五0的情况。051/62百分之八0的情况。048/620%的百分比0的情况。066/73。百分之四转移BIMMIM0的情况。049/70。百分之三0的情况。052/71。百分之五0的情况。055/70。百分之二0的情况。056/70。百分之四0的情况。041/58。百分之八0的情况。041/59。百分之四0的情况。069/72。百分之二0的情况。067/72。百分之二0的情况。044/56占7%0的情况。045/56占6%0的情况。039/58百分之九0的情况。041/59。百分之九0的情况。041/60。0%的百分比0的情况。043/59。百分之八0的情况。048/71。百分之四0的情况。050/70百分之四昏暗0的情况。052/73。百分之三0的情况。056/70。0%的百分比0的情况。043/58百分之八0的情况。063/70。百分之五0的情况。044/55百分之三0的情况。043/61百分之一0的情况。043/60百分之二0的情况。051/73。百分之四NES0的情况。004/0。0%的百分比0的情况。048/65百分之五0的情况。002/0。0%的百分比0的情况。055/66占7%0的情况。025/44。0%的百分比0的情况。001/2. 百分之一0的情况。293/79。占7%0的情况。007/12. 百分之一评分SPSA0的情况。003/0。0%的百分比0的情况。042/61百分之一0的情况。002/0。0%的百分比0的情况。049/64百分之九0的情况。021/39。占7%0的情况。001/2. 百分之一0的情况。208/78。占7%0的情况。007/9。占7%N攻击0的情况。002/0。0%的百分比0的情况。030/48占6%0的情况。001/0。0%的百分比0的情况。037/55。百分之八0的情况。016/33. 百分之一0的情况。000/0。0%的百分比0的情况。031/48。占6%0的情况。005/2. 百分之四表3：在之前的评估标准给出的∞范数下，CIFAR-10上的8个模型对抗非目标攻击的逐点结果。每个条目显示了所有样本中最小adversarial扰动的中值Δ ∞距离（左）以及固定Δ = 8 / 255的模型精度（右）。它的真实类随机，这是用于有针对性的攻击。防御模式：为了公平评估，我们测试了16个代表性的防御模型，其原始源代码和预训练模型是公开的。这些模型涵盖所有防御类别，并包括每个类别中的最先进模型在CIFAR-10上，我们选择8个模型-自然训练的ResNet-56（Res-56）[21]，基于PGD的对抗训练（PGD-AT）[34]，DeepDefense [64]，TRADES [66]，凸外多面体（Con- vex）[57]，JPEG压缩[17]，随机自集成（RSE）[32]和自适应多样性促进（ADP）[37]。在ImageNet上，我们还选择了8个模型-自然训练Inception v3（Inc-v3）[52]，集合对抗训练（Ens-AT）[54]、对抗性对数配对（ALP）[25]、特征去噪（FD）[61]、JPEG压缩[17]、位深度缩减（Bit-Red）[63]、随机缩放和填充（RP）[60]和RandMix[67]。我们使用自然模型作为基于输入转换的防御的骨干分类器（例如，JPEG）。表1显示了防御细节。我们之所以选择许多基于随机化或输入变换的弱防御，这些防御已经被打破[1]，是因为我们想全面展示它们在各种威胁模型下的行为，我们确实为这些防御得出了一些发现。攻击：我们在基准测试中实现了15种典型且广泛使用的攻击方法，包括5种白盒攻击-FGSM，BIM，MIM，DeepFool和C W，4种基于传输的攻击-FGSM，BIM ， MIM 和 DIM ， 4 种基于分数的攻击 -ZOO ，NES，SPSA和ATTACK，以及2种基于决策的攻击-Boundary和Evolutionary。表2列出了这些攻击的更多细节。请注意：1）我们不评估PGD，因为PGD和BIM非常相似，并且通常会导致类似的性能; 2）对于基于转移的攻击，我们在替代模型上使用白盒方法来构造对抗性示例; 3）对于依赖模糊梯度的防御，我们自适应地实现了白盒攻击，当真实梯度不可用时，用近似梯度代替真实梯度;当真实梯度是随机的时，用期望梯度代替真实梯度，使得白盒攻击能够识别模型的最坏情况鲁棒性。平台：所有攻击和防御都在326一个新的对抗鲁棒性平台-RealSafe。并在此平台上进行了实验。我们的平台采用模块化的实现方式，易于扩展，详见附录A.我们承认，许多作品不包括在我们目前的基准。我们希望我们的平台能够不断地整合和评估更多的方法，并为未来的工作提供帮助。5. 评价结果我们在第二节中介绍了CIFAR-10的评估结果。5.1，以及Sec.中的ImageNet五点二。由于空间限制，我们主要提供精度与在这一节中，给出了针对非目标攻击的防御模型在λ∞范数下的扰动萌芽和攻击强度曲线，并给出了完整的实验结果（包括λ∞范数下的目标攻击、非目标攻击和目标攻击在Ap-102标准下，和攻击成功率曲线）。我们还报告了SEC中的一些关键发现五点三。5.1. CIFAR 10的评价结果在本节中，我们将展示CIFAR-10上的8个模型对白盒攻击、基于传输的攻击、基于分数的攻击和基于决策的攻击的准确性。要获得准确度，扰动预算曲线，我们固定攻击强度（即，攻击迭代或查询）。生成准确度与攻击强度曲线，我们使用一个固定的扰动预算，对于∞攻击，φ=8/255，φ=1。0为2次攻击，图像在[0，1]中。每种攻击的详细参数见附录B。我们让攻击攻击参数对所有防御模型的鲁棒性评价都是相同的，而攻击参数对鲁棒性的影响有待于以后的研究。为了更好地显示本文所采用的鲁棒性曲线与以前的评价标准（即，最小对抗性扰动的中值距离[4]和针对给定扰动萌芽[29]的模型抵抗攻击的准确度），我们在表3中示出了基于先前评估标准的评估结果。白盒攻击：我们展示了准确性与8种模型在无目标FGSM、BIM、MIM和DeepFool攻击下的扰动预算曲线327图1：准确度与CIFAR-10上的8个模型在无目标白盒攻击下的扰动预算曲线。图2：准确度与CIFAR-10上的8个模型的扰动预算曲线，以对抗无目标的基于传输的攻击。图3：准确度与给出了CIFAR-10上的8个模型在无目标分数攻击下的扰动预算曲线。图5：准确度与CIFAR-10上的8个模型的攻击强度曲线，针对无针对性的基于分数的攻击，在∞范数下。图4：准确度与CIFAR-10上的8个模型的扰动预算曲线，在CIFAR-10上，在CIFAR-2范数下，针对非目标性的基于决策的攻击。图6：准确度与CIFAR-10上的8种模型在102范数下对非目标决策攻击的攻击强度曲线。图中的标准1，并将精度与附录C中的攻击强度曲线。随着扰动预算的增加，模型的精度在迭代攻击下下降到零。基于结果，我们观察到，在白盒攻击下，对抗训练的模型（即，PGD-AT，TRADES）比其他模型更健壮，因为它们是在最坏情况下的对抗样本上训练的。我们还观察到，在不同的扰动预算或攻击迭代下，两个模型对攻击的相对鲁棒性可能不同（如Ap-附录C所示）。例如，当扰动预算较小时（例如，=0。05），但是当它较大时较低（例如，=0。第15段）。这一发现意味着，在选定的扰动预算或攻击迭代下，防御模型之间的比较是常见的，以前的作品，不能充分展示模型的性能。但是，与表3中的逐点评估结果相比，本文中采用的鲁棒性曲线可以更好地显示这些方法的全局行为。基于转移的黑盒攻击：我们展示了准确性与图10中给出了8个模型在无目标的基于转移的FGSM、BIM、MIM和DIM攻击下的扰动预算曲线。2、准确度与附录C中的攻击强度曲线。在实验中，我们选择TRADES作为替代模型来攻击其他模型，并使用PGD-AT来攻击TRADES，因为这两个模型与其他模型相比具有更好的白盒鲁棒性，因此在其他模型上生成的对抗示例很少转移到TRADES和PGD-AT上。结果表明，随着系统的性能提高，防御的准确性也随之下降328NN√图7：准确度与ImageNet上的8个模型的扰动预算曲线，以对抗无目标的白盒攻击。图8：准确度与ImageNet上的8个模型的扰动预算曲线，以对抗无目标的基于传输的攻击。扰动预算我们还注意到最近的袭击（例如，MIM、DIM）用于提高可转移性的方法实际上并不比基准BIM方法更好。基于分数的黑盒攻击：我们给出了精度与扰动预算和精度与在图10中的NES ∞范数下，8个模型对基于分数的非目标NES，SPSA和ATTACK的攻击强度（查询）。图3和图5。在这些攻击方法中，我们将最大查询数设置为20，000防御的准确性也随着扰动预算或查询数量的增加而降低从图中可以看出，攻击更有效。从结果中，我们注意到RSE对基于分数的攻击具有很强的抵抗力，尤其是NES和SPSA。我们认为RSE给出的预测的随机性使得NES和SPSA的估计梯度对于攻击是无用的。基于决策的黑盒攻击：由于基于决策的边界攻击和进化攻击方法只能用于非目标边界攻击和进化攻击，因此我们在图1中给出了8个模型在非目标边界攻击和进化攻击下的精确度曲线。图4和图6。防守队员的表现和得分队员很相似基于攻击。可以观察到，由于预测的随机性，与其他防御相比，RSE也能抵抗基于决策的攻击。5.2. ImageNet上的评测结果我们在本节中展示了ImageNet上的实验结果。我们使用与CIFAR-10相同的设置来获得评估曲线。由于输入图像大小为与ImageNet防御不同的是，我们采用了定义为α2（a）=αα2/αd的标准化α 2距离作为α2攻击的度量，其中d是向量a的维数。为了获得准确性（攻击成功率）与攻击强度曲线，我们将perturbation预算为16/255，∞攻击和0的情况。001攻击。白盒攻击：我们展示了准确性与ImageNet上的8个模型对非目标FGSM、BIM和MIM在图1中的∞范数下的扰动预算曲线。7 .第一次会议。我们还将精度与附录C中的攻击强度曲线。我们发现，FD表现出优越的perfor-曼斯比所有其他模型。FD也通过[34]中的对抗训练方法进行训练，证明了ImageNet上基于PGD的对抗训练的有效性。基于转移的黑盒攻击：我们使用ResNet- 152模型[21]作为替代模型。准确度VS图2示出了基于非目标转移的FGSM、BIM、MIM和DIM在范数下的扰动预算曲线。8.与CIFAR-10上的结果不同，MIM和DIM提高了对抗性示例在FGSM和BIM上的可移植性，导致黑盒模型的准确性一个潜在的原因是ImageNet的图像尺寸要大得多，BIM制作的对抗性示例可能会基于分数和基于决策的攻击：图9和图11显示了准确度与扰动预算和精度与ImageNet上的防御模型的攻击强度（查询）曲线，针对无针对性的基于分数的攻击，图10。图10和图12示出了在N2范数下的基于无目标决策的攻击的两组曲线。与CIFAR-10的结果类似，我们发现这两种基于随机化的防御，即R P和RandMix，在大多数情况下具有比其他方法更高的准确性。基于输入变换的JPEG和Bit-Red也提高了基线模型的鲁棒性（即，Inc-v3）。329图9：准确度与ImageNet上的8个模型的扰动预算曲线，以对抗基于分数的非目标攻击。图11：准确度与ImageNet上的8个模型的攻击强度曲线，针对无针对性的基于分数的攻击，在N_0∞范数下。图10：准确度与ImageNet上的8个模型的扰动预算曲线，以对抗基于无目标决策的攻击。图12：准确度与ImageNet上的8个模型的攻击强度曲线，在102范数下对抗无目标的基于决策的攻击。5.3. 讨论基于上述结果和更多的结果，在Ap-penetration C，我们强调了一些关键的发现。第一，针对相同攻击的防御之间的相对鲁棒性可以在不同的攻击参数下是不同的，例如扰动预算或攻击迭代次数。不仅PGD-AT和TRADES的结果在Fig.1可以证明这一点，而且结果在许多不同的场景下都表现出类似的现象。鉴于这一观察结果，在特定攻击配置下的防御之间的比较不能完全证明一种方法优于另一种方法因此，我们强烈建议研究人员采用稳健性曲线作为主要的评价指标来呈现稳健性结果。其次，在本文研究的防御中，我们发现最强大的模型是通过基于PGD的对抗训练获得它们的鲁棒性不仅对训练它们的威胁模型有好处（即，该公司威胁模型），但也可以推广到其他威胁模型（例如，第二个威胁模型）。然而，对抗性训练通常会导致自然准确率的降低和较高的训练成本。一个研究方向是开发新的方法，保持自然准确性或降低训练成本的ODS我们已经看到了几个作品[48]在这个方向。第三，我们观察到基于随机化的防御对于基于分数和基于决策的攻击具有相当的抵抗力，这些攻击依赖于黑盒模型我们认为，基于随机化的防御对这些攻击的鲁棒性是由于模型给出的随机预测，使估计的gra-搜索方向不可靠的攻击。一个潜在的研究方向是开发更强大的基于分数和基于决策的攻击，可以有效地逃避基于随机化的防御。第四，基于输入转换的防御（例如，JPEG，Bit-Red）略微提高了鲁棒性，有时可以获得更高的准确性，以对抗基于分数和基于决策的攻击。由于这些方法非常简单，它们可以与其他类型的防御相结合，以构建更强大的防御。第五，我们发现不同的基于传输的攻击方法在CIFAR-10上表现出相似的性能，而最近的方法（例如，MIM，DIM）可以提高ImageNet上BIM上对抗性示例的可移植性。一个潜在的原因是ImageNet上模型的输入维度远高于CIFAR-10，因此BIM生成的对抗性示例很容易“过拟合”替代模型[ 14 ]，导致可最近提出的解决这个问题的方法可以生成更多可转移的对抗性示例。6. 结论在本文中，我们建立了一个全面的，严格的，和一致的基准来评估对抗性的图像分类器的鲁棒性。我们进行了大规模的实验，两个鲁棒性曲线作为公正的评价标准，以促进更好地了解代表性和最先进的对抗性攻击和防御方法。根据评价结果，我们得出了一些重要的发现，这些发现可能对未来的研究有所帮助。确认本工作得到了国家重点发展计划（ 2005 年）的资助。2017YFA0700904 ）、国家自然科学基金项目（编号：61620106010，U19B2034，U1811461），北京NSF项目（No.L172037）、北京人工智能研究院（BAAI）、清华-华为联合研究计划、清华研究院郭强基金、天工智能计算研究院、摩根大通人工智能研究计划和 NVIDIA GPU/DGX 加速计划。 Yinpeng Dong 由MSRA，百度奖学金支持。330引用[1] Anish Athalye，Nicholas Carlini，and David Wagner.模糊的梯度给人一种错误的安全感：规避对对抗性示例的防御。在国际机器学习会议（ICML），2018年。一、三、五[2] Anish Athalye、Logan Engstrom、Andrew Ilyas和KevinKwok。合成强大的对抗性示例。国际机器学习会议（ICML），2018年。3[3] 威兰·布伦德尔乔纳斯·劳伯和马蒂亚斯·贝斯格。基于决策的对抗性攻击：对黑盒机器学习模型的可靠攻击。在2018年国际学习表征会议（ICLR）上。三、四[4] 作者： Wei Jiang ， Jiang Jiang ， Jiang Jiang ， JiangJiang ， Jiang Jiang. Mohanty ， Florian Laurent ，MarcelSalath e'，MatthiasBethge，YaodongYu，HongyangZhang，Susu Xu，Hongbao Zhang，Pengtao Xie，EricP.Xing，ThomasBrunner，FrederikDiehl，Je'roRummeRony，Luiz Gustavo Hafemann，Shuyu Cheng，Yinpeng Dong ， Xuefei Ning ， Wenshuo Li ， and YuWang.对抗性视觉挑战。在NeurIPS'18竞赛中一、五[5] Nicholas Carlini 、 Anish Athalye 、 Nicolas Papernot 、Wieland Brendel、Jonas Rauber、Dimitris Tsipras、IanGoodfellow和Aleksander Madry。对抗鲁棒性的评价。arXiv预印本arXiv：1902.06705，2019。一、二[6] 尼古拉斯·卡利尼和大卫·瓦格纳。对抗性的例子不容易被发现：绕过十种检测方法。在2017年的ACM人工智能和安全研讨会1[7] 尼古拉斯·卡利尼和大卫·瓦格纳。评估神经网络的鲁棒性IEEESymposium on Security and Privacy，2017。一、三、四[8] Pin-Yu Chen，Huan Zhang，Yash Sharma，Jinfeng Yi，and Cho-Jui Hsieh. Zoo：基于零阶优化的黑盒攻击，在没有训练替代模型的情况下对深度神经网络进行攻击.第10届ACM人工智能与安全研讨会论文集，第15-26页。ACM，2017。三、四[9] Minhao Cheng，Thong Le，Pin-Yu Chen，Jinfeng Yi，Huan Zhang，and Cho-Jui Hsieh.查询高效的硬标签黑盒攻击：基于优化的方法。在国际学习代表会议（ICLR），2019年。3[10] Shuyu Cheng，Yinpeng Dong，Tanyu Pang，Hang Su，and Jun Zhu.用基于转移的先验改进黑盒对抗攻击。神经信息处理系统进展，2019年。3[11] Moustapha Cisse，Piotr Bojanowski，E

下载后可阅读完整内容，剩余1页未读，立即下载