对抗鲁棒性的自监督预训练及微调模型的研究

48 浏览量更新于2023-10-25 收藏 12.36MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

46485052546990对抗鲁棒性：从自监督预训练到微调0Tianlong Chen 1，Sijia Liu 2，Shiyu Chang 2，Yu Cheng 3，Lisa Amini 2，Zhangyang Wang 101 德克萨斯农工大学，2 MIT-IBM Watson AI实验室，IBM研究，3 微软Dynamics 365 AI研究0{wiwjp619,atlaswang}@tamu.edu，{sijia.liu,shiyu.chang,lisa.amini}@ibm.com，yu.cheng@microsoft.com0摘要0通过自监督预训练获得的预训练模型广泛用于更快地微调下游任务或获得更好的准确性。然而，从预训练中获得鲁棒性尚未被探索。我们将对抗性训练引入自监督训练，首次提供通用的鲁棒预训练模型。我们发现这些鲁棒预训练模型可以通过两种方式受益于后续的微调：i）提高最终模型的鲁棒性；ii）节省计算成本，如果进行对抗性微调。我们进行了大量实验证明，与传统的端到端对抗性训练基线相比，所提出的框架在CIFAR-10数据集上实现了较大的性能差距（例如，在鲁棒准确性上提高了3.83％，在标准准确性上提高了1.3％）。此外，我们发现不同的自监督预训练模型具有不同的对抗性脆弱性。这激发了我们对多个预训练任务进行集成，进一步提高了鲁棒性。我们的集成策略在CIFAR-10上进一步提高了3.59％的鲁棒准确性，同时保持稍高的标准准确性。我们的代码可在https://github.com/TAMU-VITA/Adv-SS-Pretraining上找到。01. 引言0深度神经网络的监督训练需要大量标记的数据集，这可能无法获得并且成本高昂[15,2,28,36]。自监督和无监督训练技术试图通过消除对手动标记数据的需求来解决这一挑战。通过自监督技术预训练的表示使得快速微调到多个下游任务成为可能，并且导致更好的泛化和校准[20,23]。通过自监督预训练获得高准确性的任务的示例包括位置预测任务（Sel�e[35]，Jigsaw [25,3]），旋转预测任务（Rotation[9]）以及各种其他感知任务[6,41,8]。深度学习的标记和样本效率挑战进一步加剧了对抗性攻击的脆弱性。例如，卷积神经网络083.0 83.5 84.0 84.5 85.0 85.5 86.0 标准准确率0鲁棒准确性0对抗性训练（基线）0集成预训练0自拍0旋转拼图0集成微调0图1：我们在CIFAR-10上实现的性能总结。右上角表示标准准确性和鲁棒准确性方面的最佳性能。标记的大小表示达到最佳鲁棒准确性所需的训练轮数。黑色圆圈（•）是基线方法：端到端对抗性训练。蓝色圆圈（•）是从不同的自监督预训练任务继承鲁棒模型的微调模型。橙色圆圈（•）是三个自监督预训练任务的集成。红色星星（★）是三个微调模型的集成。标记大小与训练轮数的对应关系如下：集成微调（★，144轮）>基线（•，99轮）>集成预训练（•，56轮）>自拍（•，50轮）>拼图（•，48轮）>旋转（•，46轮）0(CNNs)广泛用于感知任务，因为具有很高的预测准确性。然而，即使是训练良好的CNN，在输入中应用了难以察觉的扰动后，也会出现高错误分类率[18,24]。正如[30]所建议的，使用当前方法学习对抗性鲁棒模型的样本复杂度明显高于标准学习的样本复杂度。对抗性训练（AT）[21]是目前最先进的模型防御方法，与标准训练（ST）相比，计算成本也更高。上述事实使得探索以下问题尤为有意义：0适当预训练的模型是否可以在对抗训练中发挥类似于ST的作用？也就是说，它们是否可以导致更高效的微调和更好的对抗鲁棒泛化能力？0自监督学习最近才与鲁棒性研究联系在一起。[14]提供了一种方法，通过将自监督任务作为补充目标，并通过AT方法[21]通过传统的分类损失进行共同优化。他们的共同优化方法存在可扩展性挑战，并且不能享受预训练嵌入的好处。此外，它还留下了许多未解答的问题，特别是关于高效调整的问题，我们在本文中解决了这些问题。Self-supervised pretraining.Numerous self-supervisedlearning methods have been developed in recent years, in-cluding: region/component ﬁlling (e.g. inpainting [6] andcolorization [41]); rotation prediction [9]; category predic-tion [8]; and patch-base spatial composition prediction (e.g.,Jigsaw [25, 3] and Selﬁe [35]). All perform standard train-ing, and do not tackle adversarial robustness. For example,Selﬁe [35], generalizes BERT to image domains. It masksout a few patches in an image, and then attempts to clas-sify a right patch to reconstruct the original image. Selﬁe isﬁrst pretrained on unlabeled data and ﬁne-tuned towards thedownstream classiﬁcation task.7000通过将自监督任务作为补充目标，并通过传统的分类损失进行共同优化，[14]提供了一种方法。他们的共同优化方法存在可扩展性挑战，并且不能享受预训练嵌入的好处。此外，它还留下了许多未解答的问题，特别是关于高效调整的问题，我们在本文中解决了这些问题。0贡献。本文将自监督预训练和微调的框架引入对抗鲁棒性领域。我们通过以下三个科学问题来激发我们的研究：0Q1:对抗性预训练模型是否有效地提高了后续微调的鲁棒性？0Q2: 哪种方法提供更好的准确性和效率：对抗性预训练还是对抗性微调？0Q3: 自监督预训练任务的类型如何影响最终模型的鲁棒性？0我们的贡献回答了上述问题，总结如下：0A1:我们首次证明了利用对抗性微调的鲁棒预训练模型可以获得很大的性能提升。如图1所示，来自单个自监督任务（Sel�e）的最佳预训练模型在CIFAR-10上进行对抗性微调时，鲁棒准确性提高了3.83%，标准准确性提高了1.3%，与强大的AT基线相比。即使使用鲁棒预训练模型进行标准微调（消耗更少的资源），也可以提高结果模型的鲁棒性。0A2:我们系统地研究了预训练和微调之间的所有可能组合。我们广泛的结果表明，对抗性微调对于提高鲁棒性起到了主导作用，而鲁棒预训练主要加速了对抗性微调。这也可以从图1中看出（较小的标记大小表示需要更少的训练轮数）。0A3:我们实验证明了来自不同自监督任务的预训练模型具有不同的对抗性漏洞。鉴于此，我们提出使用一组自监督任务进行预训练，以利用它们的互补优势。在CIFAR-10上，我们的集合策略进一步提高了3.59%的鲁棒准确性，同时保持稍高的标准准确性。我们的方法在AT设置中建立了新的基准结果，标准准确性为86.04%，鲁棒准确性为54.64%。01.在本文中，我们遵循[40]的定义的标准准确性和鲁棒准确性，作为评估我们方法有效性的两个指标：一个理想的模型应该在这两个指标上都很高。0自监督预训练。近年来，已经开发了许多自监督学习方法，包括：区域/组件填充（例如修复[6]和上色[41]）；旋转预测[9]；类别预测[8]；基于补丁的空间组合预测（例如Jigsaw[25,3]和Sel�e[35]）。所有这些方法都进行了标准训练，并没有解决对抗鲁棒性问题。例如，Sel�e[35]将BERT推广到图像领域。它在图像中遮挡了几个补丁，然后试图对正确的补丁进行分类以重建原始图像。Sel�e首先在无标签数据上进行预训练，然后微调到下游分类任务。02. 相关工作0对抗鲁棒性。已经提出了许多防御方法来提高模型对对抗性攻击的鲁棒性。方法的范围从添加随机性[7]，到标签平滑和特征挤压[27, 38]，到去噪和在对抗性示例上训练[22,19]。最近的一些工作指出，这些经验性的防御方法仍然很容易被攻破[1]。对抗训练（AT）[21]提供了目前最强大的防御之一，通过在对抗扰动的训练数据上训练模型，并且尚未被新攻击完全攻破。[10,16]表明AT在保持学习的鲁棒性的同时，也对模型进行压缩或加速[42]是有效的。一些工作已经证明模型集成[32,34]可以提升对抗鲁棒性，因为集成的多样性可以挑战对抗性示例的可传递性。最近的提议[26,37]将多样性形式化为训练的正则化器，以改进集成防御。他们的成功启发了我们的集成自监督预训练。0对抗鲁棒性的无标签数据。自监督训练通过学习有效的表示来提高下游任务的性能，而无需标签。由于鲁棒训练方法具有更高的样本复杂性，近期对如何有效利用无标签数据来训练鲁棒模型的关注度很高。结果表明，无标签数据可以成为训练对抗鲁棒模型的有竞争力的替代方法。这些结果得到了[39]的证实，他们还发现使用更多的无标签数据可以获得更好的对抗鲁棒泛化性能。两个工作[31,4]都使用无标签数据来形成无监督的辅助损失（例如，无标签独立的鲁棒正则化器或伪标签损失）。3.2. AT meets self-supervised pretraining and ﬁne-tuning7010据我们所知，[14]是迄今为止唯一利用自监督的无标签数据来训练鲁棒模型的工作，给定一个目标监督分类任务。它通过利用旋转预测自监督作为辅助任务来改进AT，该任务与传统的AT损失一起进行共同优化。我们的自监督预训练和微调与上述所有设置都不同。03. 我们的提议0在本节中，我们介绍自监督预训练，从无标签数据中学习特征表示，然后在目标监督任务上进行微调。然后，我们将对抗训练（AT）推广到不同的自监督预训练和微调方案。03.1. 设置0自监督预训练记 T p 为一个预训练任务，D p为相应的（无标签）预训练数据集。自监督预训练的目标是在没有明确手动监督的情况下从 D p自身学习模型。这通常被视为一个优化问题，其中通过最小化提出的预训练损失 ℓ p ( θ p , θ pc ; D p ) 来确定由 θ p参数化的模型。这里的 θ pc 表示针对给定 T p的附加参数。在本文的其余部分，我们关注以下自监督预训练任务（每个预训练任务的详细信息在补充材料中提供）：Sel�e [35]：通过遮挡图像中的选择性补丁，Sel�e构建了一个分类问题，以确定正确的补丁填充到遮挡位置。Rotation[9]：通过将图像旋转一个随机的90度的倍数，Rotation构建了一个分类问题，以确定应用于输入图像的旋转角度。Jigsaw [25, 3]：通过将图像分成不同的补丁，Jigsaw训练一个分类器来预测这些补丁的正确排列。0监督微调记 r ( x ; θ p ) 为从输入样本 x到从自监督预训练任务 T p 中学到的嵌入空间的映射（由 θp 参数化）。给定带有标签数据集 D f 的目标微调任务 T f，微调的目标是确定一个分类器，由 θ f 参数化，它将表示 r( x ; θ p )映射到标签空间。为了学习分类器，可以使用一个常见的监督训练损失 ℓ f ( θ p , θ f ; D f ) 来最小化，其中模型 θ p是固定的或可重新训练的，分别对应部分微调和完全微调。0AT与标准训练（ST）的对比AT被认为是训练对抗攻击下的鲁棒分类器最强大的方法之一[21，1]。考虑一个 �-容忍的 ℓ∞ 攻击δ，满足 ∥δ∥∞ ≤ �，一个对抗性示例的良性输入x给出 x +δ。借助对抗性示例，AT解决了一个通用形式的最小最大优化问题0� 最大化 ∥δ∥∞ ≤ � ℓ(θ，x + δ) �，(1)0最小化θ E x ∈D03.2. AT遇到自监督预训练和微调0其中θ表示ML/DL模型的参数，D是给定的数据集，ℓ表示在模型θ和扰动输入x + δ处评估的分类损失。通过固定δ =0，问题（1）简化为ST框架最小化θ E x ∈D [ℓ(θ，x)]。0由（1）给出的AT可以用于自监督预训练或监督微调。例如，自监督预训练的AT可以通过将θ：= [θ T p，θ T pc ]T和D：= D p，并指定ℓ为ℓp，将问题（1）转化为问题（1）。在表1中，我们总结了当AT遇到自监督预训练时的所有可能情况。0表1：自监督预训练场景总结0场景预训练方法损失ℓ在（1）中变量θ在（1）中数据集D在（1）中0P 1 无 1 NA 2 NA NA0P 2 ST 3 ℓ p [ θ T p，θ T pc ] T D p0P 3 AT ℓ p [ θ T p，θ T pc ] T D p01 无：θ p 的模型形式事先已知。2 NA：不适用。3ST：（1）的一个特殊情况，其中 δ = 0。0表2：微调场景总结0场景微调类型0微调方法0损失ℓ在（1）中0变量θ在（1）中0数据集D在（1）中0F 1 部分（使用固定θ p）1 ST ℓ f θ f D f0F 2 部分（使用固定θ p）AT ℓ f θ f D f0F 3 完全2 ST ℓ f [ θ T p，θ T f ] T D f0F 4 完全AT ℓ f [ θ T p，θ T f ] T D f01 固定θ�p表示在给定的预训练场景中学到的模型。2 完全微调重新训练θp。0给定一个预训练模型 θ p，对抗微调可以有两种形式：a）部分微调的AT和b）完全微调的AT。在前一种情况a）中，通过在固定模型（θp）下解决一个监督微调任务来解决，而后一种情况b）通过重新训练θ p来解决一个监督微调任务。在表2中，我们总结了当AT遇到监督微调时的不同情况。值得注意的是，我们对AT与由表1-2提供的预训练+微调方案（P i，Fj）的整合的研究与[14]不同，后者在监督分类任务中进行了一次性的AT，并与旋转自监督任务相结合。Ladv(θp, {θ(i)pc }, x)ℓ(i)p (θp, θ(i)pc , x + δ(i))+ λg(θp, {θ(i)pc }, {δ(i)}).(3)g(θp, {θ(i)pc }, {δ(i)}) := log det(GT G),(4)7020为了探索网络对不同配置{（P i，Fj）}的鲁棒性，我们提出以下问题：对于鲁棒预训练的AT是否足以提升微调的对抗鲁棒性？部分微调或完全微调策略对图像分类的对抗鲁棒性有何影响？自监督预训练任务的类型如何影响分类器的鲁棒性？我们在第4.3节、第4.4节和第4.5节中详细回答了上述问题。简而言之，我们发现从对抗预训练中学到的鲁棒表示在下游微调任务中在一定程度上是可传递的。然而，通过对抗微调可以获得更显著的鲁棒性改进。此外，对于鲁棒准确性和标准准确性（除了Jigsaw指定的自监督任务），完全微调的AT优于部分微调的AT。此外，不同的自监督任务展示了不同的对抗脆弱性。正如后面将明显的，这些多样化的任务为模型的鲁棒性提供了互补的好处，因此可以结合使用。03.3. 通过利用多个自监督学习任务的集合进行AT0接下来，我们通过利用多样化的预训练任务来推广AT，学习一个稳健的预训练模型。具体而言，考虑M个自监督预训练任务{T ( i ) p } M i=1，每个任务都遵循第3.1节中的公式。我们将问题(1)推广为0最小化 θ r , { θ ( i ) pc } E x �D p � L adv ( θ p , { θ( i ) pc } , x ) � , (2)0其中，L adv表示给定的对抗损失函数，由以下公式给出0:= 最大化 {∥ δ ( i ) ∥∞ ≤ � }0M数据0在(2)中，为了简化表示，我们用{∙}代替{∙} M i =1，θp表示在不同自监督任务之间共享的公共网络，θ ( i )pc表示针对第i个任务定制的子网络。有关我们提出的模型架构的概述，请参见图2。在(3)中，ℓ ( i )p表示第i个预训练损失，g表示多样性促进的正则化项，λ ≥0是一个正则化参数。注意，λ =0表示平均集成策略。在我们的情况下，我们进行网格搜索来调整λ的值，该值在[26]中选择。详细信息请参见补充材料。受[26,37]的启发，我们通过不同自监督预训练损失的输入梯度的正交性来量化多样性促进的正则化项g，0其中G的每一列对应于归一化的输入梯度{� δ i ℓ ( i ) p ( θ p ,θ ( i ) pc , x + δ ( i ) )}，当输入梯度正交时，g达到最大值0，否则为负值。多样性促进的对抗性损失(3)的理论基础是我们旨在通过抵御来自多样化扰动方向的攻击来设计一个稳健的模型θ p。04. 实验和结果0在本节中，我们设计并进行了大量实验，以检验网络对不同配置{ ( P i , F j )}在图像分类中的鲁棒性。首先，我们展示了对抗自监督预训练（即表1中的P3）提高了下游任务的性能。我们还讨论了不同微调策略F j对对抗鲁棒性的影响。其次，我们展示了不同自监督任务对其结果预训练模型的多样化影响。第三，我们集成这些自监督任务来进行对抗性预训练。在微调阶段，我们还使用配置(P 3, F4)集成了三个最佳模型，并展示了其性能优势。最后，我们进行了广泛的消融研究，揭示了数据集D p 的大小、D p中图像的分辨率以及AT之外的其他防御选项对结果的影响。04.1. 数据集0数据集详细信息：在我们的实验中，我们考虑了四个不同的数据集：CIFAR-10、CIFAR-10-C[13]、CIFAR-100和R-ImageNet-224（ImageNet的一个特殊构建的“受限”版本，分辨率为224×224）。对于最后一个数据集，我们确实要在高分辨率数据上展示我们的方法，尽管存在计算挑战。我们按照[29]选择了包含190个ImageNet类的10个超类。每个超类的详细类别分布可以在我们的补充材料中找到。对于不同预训练数据集大小的消融研究，我们从8000万个TinyImages数据集[33]中选择更多的训练图像，其中包括CIFAR-10。使用相同的10个超类，我们形成了CIFAR-30K（即30,000个图像）、CIFAR-50K、CIFAR-150K用于训练，并保留另外10,000个图像用于保留测试。数据集用法：在第4.3节、第4.4节和第4.5节中，对于所有结果，我们使用CIFAR-10训练集进行预训练和微调。我们在CIFAR-10测试集和CIFAR-10-C上评估我们的模型。在第4.6节中，我们使用CIFAR-10、CIFAR-30K、CIFAR-50K、CIFAR-150K和R-ImageNet-224进行预训练，并使用CIFAR-10训练集进行微调，同时在CIFAR-10测试集上进行评估。我们还在补充材料中验证了我们的方法在CIFAR-100上的效果。在所有实验中，我们随机将原始训练集分为训练集和验证集（比例为9:1）。7030( , , , ) 0 � 90 � 180 � 270 �0补丁置换0遮蔽补丁0变压器0旋转分类器（角度）0拼图分类器（置换索引）0填充补丁0自拍分类器（补丁位置）自拍0旋转0拼图0� p 残差块0残差块0残差块0� pc0� pc0� pc0点积0图2：集成对抗预训练的整体框架。预训练权重θp是ResNet-50v2[11]的前三个块；绿色箭头（�）、蓝色箭头（�）和红色箭头（�）分别表示Sel�e、拼图和旋转的前馈路径。04.2. 实现细节0模型架构：对于Sel�e任务的预训练，我们完全按照[35]的设置进行。对于旋转和拼图预训练任务，我们使用ResNet-50v2[12]。对于微调，我们对所有的网络都使用ResNet-50v2。每个微调网络都会继承相应的鲁棒预训练权重，用于初始化ResNet-50v2的前三个块，而剩余的块则随机初始化。0训练和评估细节：所有的预训练和微调任务都使用带有0.9动量的SGD进行训练。我们对CIFAR-10、ImageNet-32和R-ImageNet-224使用批量大小为256和64。所有的预训练任务都采用余弦学习率。旋转和拼图预训练的最大和最小学习率分别为0.1和10-6；自拍预训练的最大和最小学习率分别为0.025和10-6；集成预训练的最大和最小学习率分别为0.001和10-8。所有的微调阶段都遵循多步学习率调度，从0.1开始，在第30和50个epoch时以10倍的速度衰减，进行100个epoch的训练。0我们使用10步和20步的ℓ∞PGD攻击[21]进行对抗性训练和评估。除非另有说明，我们遵循[14]的设置，其中�=8.0。0225和α=2.0255。对于所有的对抗性评估，我们使用完整的测试数据集（即CIFAR-10的10,000张图像）生成对抗性图像。我们还考虑了未预料到的攻击[17, 13]。0评估指标和模型选择标准：我们遵循[40]使用以下指标：i）标准测试准确率（TA）：干净测试数据集上的分类准确率；ii）鲁棒测试准确率（RA）：受攻击测试数据集上的分类准确率。在我们的实验中，我们使用TA来选择模型，以在鲁棒性和准确性之间取得更好的平衡。使用RA标准选择的模型的结果包含在补充材料中。04.3. 对抗性自监督预训练和微调有助于分类的鲁棒性0我们系统地研究了表1和表2中考虑的所有预训练和微调配置，其中(Pi,Fj)表示一种特定的预训练+微调方案。基线方案由端到端的标准训练（ST）给出，即(P1,F3)，以及端到端的对抗训练（AT），即(P1,F4)。表3显示了在涉及不同自监督预训练任务（Sel�e、旋转和拼图）的不同预训练+微调策略下的TA、RA和迭代复杂度（以epoch数表示）的结果。接下来，我们分析表3的结果并提供额外的见解。我们首先关注将标准预训练策略P2与基线方法中使用的微调方案F3和F4进行整合的情况。从表3中的(P2, F3)与(P1, F3)以及(P2, F4)与(P1,F4)的比较中可以得出几点观察结果。1）即使只进行标准预训练，使用自监督预训练仍然能够持续改善TA和/或RA；2）对抗性微调F4（对标准微调F3）的使用至关重要，可以显著提高P1和P2下的RA；3）与(P1,F4)相比，使用自监督预训练可以提供更好的最终模型鲁棒性（约提高3%）和更快的微调速度（几乎节省了一半的epoch数）。接下来，我们研究对抗性预训练（即P3）如何影响最终模型的鲁棒性。从表3中的(P3, F1)和(P3,F2)可以看出，即使在部分微调的情况下，从P3中学到的鲁棒特征表示也有益于对抗鲁棒性，但是对抗性部分微调（即(P3,F2)）的使用可以带来更多的改进（提高30%）。我们还观察到从(P3, F3)的情况中，标准的全微调会损害鲁棒性。7040表3：八种不同（Pi，Fj）情景的评估结果。表1和表2提供了P1（无预训练），P2（标准自监督预训练），P3（对抗性自监督预训练），F1（部分标准微调），F2（部分对抗性微调），F3（完全标准微调）和F4（完全对抗性微调）的详细定义。最佳结果在不同自监督预训练任务的每列下都有突出显示（第1，第2）。0情景Selfie预训练Rotation预训练Jigsaw预训练0TA（%） RA（%） Epochs TA（%） RA（%） Epochs TA（%） RA（%） Epochs0（P1，F3）94.24 0.00 92 94.24 0.00 92 94.24 0.00 92 （P1，F4）84.72 47.22 99 84.72 47.22 9984.72 47.22 990（P2，F3）95.09 0.00 97 95.45 0.00 92 93.93 0.00 89 （P2，F4）85.56 50.42 60 86.66 50.95 4585.18 50.94 460（P3，F1）78.93 6.30 82 86.83 18.22 99 80.47 2.68 87 （P3，F2）74.30 37.65 64 82.32 45.1047 72.76 32.59 51 （P3，F3）94.69 0.00 86 94.79 0.00 92 93.06 0.00 93 （P3，F4）86.02 51.0550 85.66 50.40 46 84.50 49.61 480从P3学到的鲁棒特征表示，导致RA为0%。此外，当采用对抗性全微调，即（P3，F4）时，获得了最显著的鲁棒性改进。这个观察结果与（P2，F4）对抗（P2，F3）一致。第三，在第一眼看来，对抗性全微调（即F4）是提高最终模型鲁棒性最重要的步骤。然而，对抗性预训练也是关键，特别是为了减少微调的计算成本；例如，在（P3，F4）中不到50个时期，而在端到端AT（P1，F4）中为99个时期。最后但并非最不重要的是，我们注意到上述结果与不同的自监督预测任务一致。然而，Selfie和Rotation比Jigsaw更受青睐，以提高最终模型的鲁棒性。例如，在对抗性预训练后进行标准和对抗性部分微调的情况下，即（P3，F1）和（P3，F2），Selfie和Rotation在RA中至少提高了3.5%。当使用对抗性全微调，即（P3，F4）时，Selfie和Rotation在TA和RA中都优于Jigsaw，其中Selfie的改进最大，约为TA和RA中的2.5%。04.4. 与通过自监督预测任务正则化的一次性AT进行比较0在接下来的内容中，我们将我们提出的对抗性预训练加对抗性微调方法（即（P3，F4）在表3中）与一次性AT进行比较，该方法通过自监督旋转预测任务[14]对分类任务进行正则化优化。除了在TA和RA中（在ℓ∞PGD攻击[21]下评估）评估这种比较之外，我们还测量了对12种未使用在AT[17]中的攻击的分类鲁棒性。更多结果可以在补充材料中找到。图3展示了我们的方法与[14]中基线方法的多维性能比较。0正如我们所看到的，我们的方法在TA上提高了1.97%，而在RA上降低了0.74%。然而，我们的方法在抵御所有12种未预料到的攻击中都获得了一致的鲁棒性改进，改进范围从1.03%到6.53%不等。此外，我们的方法将预训练和微调分开，使得目标图像分类器可以从一个温暖的起点学习，即对抗性预训练表示网络。这减轻了[14]中一次性AT的计算缺点，回顾我们在表3中显示的节省计算成本的优势。接下来，图4展示了我们的方法在不同类型的自监督预测任务下的性能。正如我们所看到的，Selfie提供了始终更好的性能，而Jigsaw表现最差。0图3：对未知对抗攻击者的准确性总结。我们的模型是在对抗性微调和对抗性旋转预训练之后获得的。基线是与旋转辅助任务[14]共同优化的模型。̸̸7050图4：对未知对抗攻击者的准确性总结。对抗性微调模型之间的竞争，使用自拍、旋转和拼图对抗性预训练。04.5. 多样性与任务集成0接下来，我们将展示不同的自监督预测任务展示了多样的对抗性脆弱性，即使它们对应的RA保持相似。我们通过从使用不同自监督预测任务训练的对抗性预训练模型生成的对抗性示例的可迁移性来评估这种多样性。然后，我们通过利用自拍、旋转和拼图的集合来展示我们提出的对抗性预训练方法（2）的性能。在表4中，我们展示了从对抗性预训练后进行对抗性全微调的最终模型（P3，F4）生成的PGD攻击的可迁移性。为了方便起见，让Model（t）表示使用自监督预训练任务t∈{自拍、旋转、拼图}学习的分类器。给定来自Model（t）的PGD攻击，我们评估它们对Model（t'）的可迁移性，以攻击成功率（ASR2）为指标。如果t'=t，则ASR变为1-RA。如果t'≠t，则ASR反映了从Model（t）到Model（t'）的攻击可迁移性。正如我们所见，表4的对角线条目对应于每列的最大ASR。这并不奇怪，因为转移到另一个模型会使攻击变得更弱。一个有趣的观察是，将攻击从Model（拼图）转移到其他目标模型时，ASR会有较大的下降。这意味着Model（自拍）和Model（旋转）具有更好的鲁棒性，与我们之前的结果（如图4）一致。乍一看，从Model（t）到Model（t'）（t'≠t）的转移攻击的ASR值保持相似，例如，表4的第一列，其中t=自拍，t'=旋转（38.92%ASR）或t'=拼图（38.96% ASR）。然而，02 ASR是成功对抗性示例与总共10,000个测试图像的比率。0图5显示了看似相似的可迁移性是建立在更多多样的对抗性示例上的，这些示例成功攻击了Model（旋转）和Model（拼图）。正如我们所见，至少存在14%的转移示例在成功攻击Model（旋转）和Model（拼图）时不重叠。这种对不同自监督预训练任务使用的模型的转移对抗性示例的多样分布激发了我们通过利用多样化的预训练任务来进一步提高鲁棒性的想法。在图2中，我们通过多样性促进的集成（AP +DPE）展示了我们提出的对抗性预训练的有效性（2）。在这里，我们考虑了4种基线方法：3种基于单一任务的对抗性预训练，以及通过标准集成进行的对抗性预训练（AP +SE），对应于（2）中的λ=0。正如我们在表5中所见，与最佳单一微调模型相比，AP +DPE在RA上至少提高了1.17%，而在TA上最多降低了3.02%。除了预训练阶段的集成外，我们考虑了一种简单但计算量最大的集成策略，即使用自拍、旋转和拼图进行对抗性预训练P3，然后进行对抗性微调F4，得到三个最终鲁棒模型的平均预测。正如我们在表6中所见，最佳组合，即三个微调模型的集成，在RA上至少提高了3.59%，同时保持稍高的TA。其他集成配置的更多结果可以在补充材料中找到。0表4：具有自拍、旋转和拼图自监督对抗预训练的微调模型的漏洞多样性。结果采用全面对抗微调。每列不同微调模型的PGD攻击下的最高ASR（1st，2nd）已突出显示。有关不同PGD攻击的集成模型结果，请参阅我们的补充材料。0（P3，F4）攻击从模型（自拍）的PGD攻击0从模型（旋转）的PGD攻击0从模型（拼图）的PGD攻击0模型（自拍） 48.95% 37.75% 36.65%0模型（旋转） 38.92% 49.60% 38.12%0模型（拼图） 38.96% 39.56% 51.17%04.6.消融研究和分析0为了公平比较，我们在相同的CIFAR-10数据集上微调所有模型。在每个消融中，我们展示了（P3，F2）和（P3，F4）情景下的结果，其中P3表示对抗性预训练，F2表示部分对抗性微调，F4表示全面对抗性微调。更多消融结果可以在补充材料中找到。0预训练数据大小的消融如表7所示，随着预训练数据集的增大，标准14.09%14.00%F271.930.576174.734.237874.6633.8468F485.1450.234885.6251.254685.1850.94467060成功迁移攻击同时对模型（旋转）和模型（拼图）0仅在模型（旋转）上的成功迁移攻击0仅在模型（拼图）上的成功迁移攻击0图5：从模型（自拍）到模型（旋转）和模型（拼图）的成功迁移对抗样本的VENN图。重叠的棕色区域（■）表示从模型（自拍）到模型（旋转）和模型（拼图）的成功迁移攻击。粉色区域（■）表示仅在模型（拼图）中从模型（自拍）进行的成功迁移攻击。绿色区域（■）表示仅在模型（旋转）中从模型（自拍）进行的成功迁移攻击。0表5：单任务预训练微调模型和任务集合预训练微调模型之间的结果比较。AP + SE表示通过标准集合进行对抗预训练。AP +DPE表示通过多样性促进集合进行对抗预训练。每个评估指标的最佳结果（1st，2nd）已突出显示。0模型 TA（正确率）（%） RA（鲁棒性）（%） Epochs（训练轮数）0自拍预训练 86.02 51.05 50 旋转预训练 85.6650.40 460拼图预训练 83.74 48.83 480AP + SE 84.44 49.53 470AP + DPE 83.00 52.22 560表6：具有不同对抗预训练的微调模型的集成结果。每个评估指标的最佳结果（1st，2nd）已突出显示。0微调模型（P3，F4） TA（正确率）（%） RA（鲁棒性）（%）0拼图+旋转 85.36 53.08 拼图+自拍 85.6453.32 旋转+自拍 86.51 53.830拼图+旋转+自拍 86.04 54.640鲁棒准确率和标准准确率都呈稳定增长。在（P3，F4）情景下，当预训练数据大小从30K增加到150K时，我们观察到鲁棒准确率增加了0.97%，而标准准确率几乎相同。这与现有理论一致[30]。由于自监督预训练不需要标签，我们可以在未来几乎免费地增加未标记数据的大小，以持续提高预训练性能。0表7：预训练数据集大小的消融结果。所有预训练数据集都具有32×32的分辨率和10个类别。0情景 CIFAR-30K0TA（正确率）（%） RA（鲁棒性）（%）Epochs（训练轮数）0（P3，F2） 65.65 30.00 70（P3，F4） 85.29 49.64 420场景 CIFAR-50K0TA（%） RA（%） Epochs0（ P 3 ， F 2 ） 66.87 30.42 87 （P 3 ， F 4 ） 85.26 49.66 610场景 CIFAR-150K0TA（%） RA（%） Epochs0（ P 3 ， F 2 ） 67.73 30.24 95 （P 3 ， F 4 ） 85.18 50.61 550表8：防御方法的消融结果。我们使用随机平滑[5]代替对抗训练进行预训练。0随机平滑0自拍预训练旋转预训练拼图预训练0TA（%） RA（%） Epochs TA（%） RA（%） Epochs TA（%） RA（%） Epochs0预训练中防御方法的消融。在表8中，我们使用随机平滑[5]代替对抗训练进行预训练，而其他协议保持不变。我们得到了与使用对抗性预训练相一致的结果：鲁棒预训练加速了对抗性微调并提高了最终模型的鲁棒性，而完全的对抗性微调对鲁棒性的提升贡献最大。05. 结论0在本文中，我们将对抗训练与自监督相结合，以获得鲁棒的预训练模型，可以通过微调轻松应用于下游任务。我们发现对抗性预训练不仅可以提高最终模型的鲁棒性，还可以加速后续的对抗性微调。我们还发现对抗性微调对最终鲁棒性的提升贡献最大。受到我们在预训练中观察到的不同自监督任务之间的多样性的启发，我们提出了一种集成预训练策略，进一步提高了鲁棒性。我们的结果在标准和鲁棒准确性方面都观察到了一致的增益，在CIFAR-10上取得了新的基准数据。未来，我们有兴趣探索我们的实验和消融研究揭示的几个有前景的方向，包括纳入更多的自监督任务，扩大预训练数据集的规模，以及扩展到高分辨率数据。[1] Anish Athalye, Nicholas Carlini, and David Wagner. Obfus-cated gradients give a false sense of security: Circumventingdefenses to adversarial examples. 2018 ICML, arXiv preprintarXiv:1802.00420, 2018. 2, 3[2] Yoshua Bengio, Pascal Lamblin, Dan Popovici, and HugoLarochelle. Greedy layer-wise training of deep networks. InAdvances in neural information processing systems, pages153–160, 2007. 1[3] Fabio M Carlucci, Antonio D’Innocente, Silvia Bucci, Bar-bara Caputo, and Tatiana Tommasi. Domain generalizationby solving jigsaw

下载后可阅读完整内容，剩余1页未读，立即下载