DE-CROP：数据高效认证鲁棒性的新方法

39 浏览量更新于2023-10-16 收藏 13.12MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

the most common ways to provide empirical defense wherethe models are trained to minimize the maximum train-ing loss induced by adversarial samples.Such defensesare heuristic-based and are only robust to known or spe-cific adversarial attacks. Powerful adversaries easily breakthem, hence are not truly robust against adversarial pertur-bations [1, 32, 7]. This motivated the researchers to developmethods where a trained model can be guaranteed to have aconstant prediction in the input neighborhood. Such meth-ods that provide formal guarantees are called certified de-fense methods [25, 34, 9, 17, 23].46220DE-CROP：针对预训练分类器的数据高效认证鲁棒性0Gaurav Kumar Nayak * Ruchit Rawal * Anirban Chakraborty0计算与数据科学系印度科学研究所，班加罗尔，印度0{ gauravnayak, ruchitrawal, anirban } @iisc.ac.in0摘要0使用随机平滑的认证防御是一种流行的技术，用于为深度神经网络提供对l2型对抗攻击的鲁棒性保证。现有的方法使用该技术通过在整个训练数据上训练自定义去噪网络来保护预训练的非鲁棒模型。然而，由于高传输成本和数据的专有性等限制，访问训练集可能仅限于少量数据样本。因此，我们提出了一个新问题：“如何仅使用少量训练样本来认证预训练模型的鲁棒性”。我们观察到，直接使用现有技术在有限样本上训练自定义去噪器会导致认证效果差。为了克服这个问题，我们提出的方法（DE-CROP）1为每个训练样本生成类边界和插值样本，确保在预训练分类器的特征空间中具有高多样性。我们通过最大化生成样本的去噪输出与原始训练样本在分类器的逻辑空间中的相似性来训练去噪器。我们还使用领域鉴别器和最大均值差异进行分布级别匹配，从而获得进一步的好处。在白盒设置中，我们在多个基准数据集上相对于基线取得了显著的改进，并且在具有挑战性的黑盒设置下报告了类似的性能。01. 引言0鉴于大量的训练数据（如ImageNet [8]）和计算能力（强大的GPU[29]），深度模型在其训练的相应任务上具有很高的准确性。然而，当它们遇到以对抗性攻击[30]制作的对抗性图像作为输入时，这些模型很容易被欺骗。文献中已经做了很多努力来保护模型免受对抗性攻击。对抗训练[22,13]是提供经验性防御的最常见方法，其中模型被训练以最小化由对抗样本引起的最大训练损失。这种防御是基于启发式的，并且只对已知或特定的对抗性攻击具有鲁棒性。强大的对手很容易突破它们，因此在对抗性扰动[1, 32,7]方面并不真正鲁棒。这促使研究人员开发方法，可以保证经过训练的模型在输入邻域中具有恒定的预测。这种提供形式保证的方法被称为认证防御方法[25, 34, 9, 17, 23]。0*表示相等的贡献。1项目页面：https://sites.google.com/view/decrop0随机平滑[3, 21, 19, 20,6]是一种经过认证的防御技术，用于提供对l2型对抗扰动的可证明鲁棒性。它优于其他认证方法，并且由于其架构独立性，也适用于深度神经网络的可扩展性。使用随机平滑，任何基础分类器都可以转换为平滑分类器，该分类器在l2球内具有恒定的预测，从而具有对l2型攻击的可证明鲁棒性。平滑分类器对输入图像的预测仅仅是基础分类器对输入的随机高斯扰动上最可能的类别的预测。请注意，基础分类器以最可能的类别作为正确类别进行预测的概率越高，认证半径[6]就越大。然而，任何普通训练/现成的分类器在受高斯噪声污染的输入上都不具有鲁棒性。预测的最可能类别可能是错误的，或者可能以非常低的置信度进行预测，导致认证效果差。因此，通常使用高斯扰动样本[6]作为数据增强从头开始训练模型，并进行对抗训练[26]。0从头开始训练高斯噪声增强并不总是可行的选择，特别是当大型预训练模型作为白盒或黑盒的API共享时。此外，重新训练这些庞大的模型会增加很多计算负担。为了避免这种情况，Salman等人提出了一种“去噪平滑”技术，其中在预训练分类器之前添加了一个自定义训练的去噪器。尽管他们的方法提供了We broadly categorize the relevant works that providesadversarial robustness and briefly discuss them below:Empirical Robustness: Empirically motivated adver-sarial robustness defenses can be broadly classified into:a) adversarial training (AT) and b) non-adversarial train-ing regularizations. AT [22, 13, 30] improves robustnessby augmenting the training data with adversarial samples46230为了对预训练模型提供认证的鲁棒性，它们使用整个训练数据来训练去噪器。事实上，所有先前的认证方法都假设整个训练数据是可用的。这个假设是不现实的，因为API提供者可能不会共享整个大规模训练集。由于完整训练数据的传输成本较高或出于专有原因，他们可能只提供对少量训练样本的访问。在这种情况下，当我们直接进行去噪平滑[27]时，由于训练样本数量从100%减少到1%，认证准确性显著下降，如图1所示。0图1.随着CIFAR-10训练集大小的减少，现有方法的认证准确性（标准和鲁棒）显著下降。我们的方法（DE-CROP）通过在不同的训练数据预算（100%、20%、10%、5%、1%）上对l2扰动在半径0.25内获得了显著的认证性能提升。我们使用标准差为0.5的高斯噪声进行认证。0在这项工作中，我们试图在训练数据有限的挑战性环境中，为预训练的非鲁棒模型提供认证的鲁棒性。我们首先探索了使用不同方法（如权重衰减作为正则化方案，或者使用数据增强和混合策略[36]生成额外数据）来改进去噪平滑的性能是否可行，以避免过拟合。然而，这些传统方法只能带来微小的改进（参见表1、2）。因此，我们提出了一种数据高效的认证鲁棒性方法（称为“DE-CROP”）（参见第4节和图2、3），它生成更好的样本，产生与完整训练数据类似的预训练分类器上的多样特征。由于生成模型很难训练并且在有限数据的情况下表现不佳（在下游任务中），我们采用了一种简单直观的方法来生成额外的数据以最小化过拟合。我们通过生成对抗样本（对应于我们的有限数据），即我们称之为“边界”样本，来实现这一目标。对抗样本在保持图像的语义内容的同时，作为决策边界的上界[24]，允许去噪器从其邻域的样本中学习。此外，我们还生成插值样本（位于原始样本和边界样本之间），进一步增加特征空间中的数据多样性。我们通过最大化预训练分类器在原始数据和去噪扰动生成/原始数据上的特征之间的相似性来训练去噪器。我们通过执行以下操作来实现这一目标：0通过在两个层次上进行正交修改来形成：a）实例级别（使用余弦相似度）和b）分布级别（使用最大均值差异[14]和来自域鉴别器[11]的负梯度）。在我们的实验中，我们观察到，尽管余弦相似度通过利用预训练分类器的区分性改善了去噪性能，但其好处有限，因为它只在实例级别上操作。因此，受到领域自适应中基本思想（如最大均值差异和域鉴别器）的启发，我们制定了一个目标，即通过减少原始干净输入和去噪高斯扰动输出之间的分布差异来获得对去噪图像的正确预测。如图1所示，我们的方法DE-CROP在CIFAR-10的不同样本预算（100%、20%、10%、5%、1%）上显著提高了认证性能，与[27]相比。我们的贡献总结如下：0•在仅有有限的训练数据的情况下，我们为非鲁棒的预训练分类器提供了针对l2扰动的白盒和黑盒设置下的鲁棒性保证。据我们所知，我们是第一个仅使用少量训练样本提供认证对抗防御的研究。0•为了减轻在有限的训练数据上的过拟合问题，我们提出了一种新颖的样本生成策略（第4.1节），通过合成“边界”和“插值”样本来增加有限的训练数据，从而改善预训练分类器的特征多样性。0•用常规交叉熵损失训练的去噪器网络提供有限的好处。为了进一步提高性能，我们提出了额外的损失（第4.2节），在多个粒度（实例和分布级别）上对原始和去噪高斯扰动生成/原始样本的特征表示进行对齐。0•我们展示了我们生成的样本（第5.2节）以及每个提出的损失（第5.3节）的贡献，通过在白盒和黑盒设置中报告在不同样本预算和噪声水平下观察到的显著改进。02. 相关工作46240由特定威胁模型生成。虽然AT被广泛认为是最好的经验防御方法，但由于在训练时生成对抗样本而导致计算成本高。非AT方法[5]试图通过明确模仿鲁棒网络中观察到的属性来减少计算负担（通常以牺牲对抗鲁棒性为代价）。AT还高度依赖于训练数据的数量。Aditi等人[4]证明，在伪标记设置中使用额外的无标签数据可以显著提高对抗鲁棒性。然而，由于伪标记本身的性能取决于标记数据的数量，因此随着标记数据的减少，他们的技术性能会大幅下降。为了缓解这个问题，Sehwag等人[28]说明了使用从生成模型生成的额外数据来提高对抗鲁棒性的好处。由于经验防御是基于启发式设计的，所以随着未来出现更强的对抗攻击，它们很容易被欺骗。相比之下，我们试图在有限的训练样本约束下，对预训练分类器进行可证明的l2对抗攻击鲁棒性。认证鲁棒性：与经验防御不同，这里对输入样本周围区域内的模型预测进行保证，保证其不变且保持恒定。提供认证的方法要么是“精确的”[10, 9, 17, 31]，要么是“保守的”[34,37]。前者在大型架构上不可扩展，计算密集，并且通常使用较少表达能力的网络，但可以对输入半径内的任何对抗样本的存在提供验证。后者更具可扩展性，需要较少的计算，但即使没有对抗样本存在，也可能错误地拒绝认证。这两种技术都需要定制或特定的架构，因此不适用于现代深度架构。随机平滑是一种流行的技术，它不依赖于任何架构，并最初用作启发式防御[3,21]。Lecuyer等人[19]首次证明了它提供了认证保证，其中使用了“差分隐私”的技术进行认证。之后，Li等人[20]利用“信息论”的思想提供了更好的保证。这两种方法对平滑分类器的保证较低。Cohen等人[6]提供了针对l2范数对抗扰动的严格认证保证。在此之后，通过在随机平滑框架中使用对抗训练技术，进一步提高了认证准确性[26]。然而，所有这些技术在提供认证鲁棒性的同时都是从头开始训练分类器的。最近，Salman等人[27]通过附加自定义训练的去噪器，为预训练模型提供了可证明的鲁棒性。0在此之前，我们还训练了自定义去噪器，但只使用了少量的训练样本。与[27]不同，我们的有限数据设置更具挑战性，直接使用他们的方法会导致较差的认证结果。我们使用添加了域鉴别器并使用我们提出的损失进行优化的生成样本，很好地处理了去噪器的过拟合问题，并在认证准确性上取得了显著的改进。现在我们在解释我们的方法之前，讨论一下必要的准备工作，以提供所需的背景知识。03. 准备工作0符号：完整的原始训练数据集表示为Do ={Dtrain，Dtest}，其中Dtrain和Dtest分别是训练集和测试集。基本分类器Bc在整个Dtrain上进行预训练，其中包含N个训练样本。API提供者已经授予对训练的Bc的公共访问权限，客户端可以使用它来获取预测结果。然而，只有有限数量的Dtrain（表示为Dlimtrain）被分享给客户端。Dlimtrain只包含Nk个训练样本，其中Nk�N，它是Dtrain的k%。对于分类器Bc的每个类别，即对于任何类别c：Nkc�Nc且Nkc是Nc的k%。Dlim train的第i个样本（即xio）通过高斯噪声扰动，表示为¯xi o = xi o +ϵ，其中ϵ�N(0，σ2I)，构成扰动样本的集合¯Dlim train。预训练分类器Bc在xio上的倒数第二个特征、logits和标签预测分别表示为FBc(xi o)、label(Bc(xi o))和Bc(xio)。类似地，平滑分类器Sc在输入xi o上的标签预测表示为label(Sc(xio))。分类器Bc转换为平滑分类器Sc，通过随机平滑用于认证防御。第i个0测试样本为Ric。评估是在半径为r的l2扰动上进行的，表示为lr2。去噪网络Dn和域鉴别器Dd分别由θ和ϕ参数化。边界样本和插值样本是使用Dlim train的第i个训练样本（即xio）生成的，分别表示为xib和xiint。随机平滑（RS）：该技术用于从给定的基本分类器Bc构建新的平滑分类器Sc。对于Dlim train的任何第i个样本（即xio），分类器Sc对应于输入xi o的输出是在¯xio上由Bc预测的最可能的类别，其概率最高。0label(Sc(xi o)) = argmax c ∈ C Prob(label(Bc(xi o + ϵ))= c)0其中ϵ�N(0，σ2I)0(1) 这里，σ是一个超参数，控制噪声水平，C是Dlimtrain中唯一目标标签的集合。RS的过程不假设Bc的架构，因此允许Bc是任意的大型深度神经网络。̸(4)46250使用RS进行认证鲁棒性：Lecuyer等人[19]和Li等人[20]使用RS为平滑分类器Sc提供了鲁棒性保证，但由于Sc的鲁棒性可能比获得的保证更强，因此它们是松散的。Cohen等人[6]使用RS给出了对l2鲁棒性保证的紧密界限。如果基本分类器Bc对于高斯扰动的副本xi o即N(xi o,σ2I)的预测是c1，即“最可能的类别”，概率为p1，并且c2是“次优”类别，概率为p2，则平滑分类器Sc在输入xio周围具有可证明的鲁棒性，半径为Rc =σ/2(ϕ-1(p1)-ϕ-1(p2))。这里Rc是认证半径，因为预测保证在半径内保持不变，ϕ-1表示标准高斯CDF的逆。当Bc是深度神经网络时，无法精确计算p1和p2。因此，Cohen等人使用蒙特卡洛技术估计p1（p1）的下界和p2（p2）的上界。定理[Cohen等人[6]]：Bc是将输入映射到输出类标签之一的任何函数。如eq.1所定义，Sc是令ϵ从正态分布中采样，即ϵ�N(0，σ2I)。如果c1∈C且p1，p2∈[0，1]满足以下不等式：0Prob (label (Bc(xio+ϵ)) = c1) ≥ p1 ≥ p2 > =0max c�=c1 Prob (label (Bc(xio+ϵ) = c) (2)0然后label (Sc(xio+ϵ) = c1 � ∥ϵ∥21/2，假设p2=1−p1，否则Rc=0。这些上述表达式可以使用“Neyman-Pearson”引理推导出来，我们将读者参考[6]。现在，我们在下一节中详细讨论我们提出的方法。04. 提出的方法0我们的目标是为给定的预训练基分类器Bc提供认证的鲁棒性。然而，使用随机平滑来获得认证要求模型Bc对输入扰动具有随机高斯噪声的鲁棒性，而这可能不是API提供者提供的模型Bc的情况。为了使基模型Bc适用于基于随机平滑的认证而无需修改/重新训练Bc，我们在Bc之前添加了去噪网络Dn。因此，Bc◦Dn是使用它来定义对平滑分类器Sc的预测的新基分类器的方式如下：0label (Sc(xi0)) = argmax c ∈ C Prob (label (Bc(Dn(xi0+ϵ)))= c)0其中ϵ�N(0,σ2I)0上述平滑分类器Sc对于具有认证半径Rc的l2扰动是可靠的（参见第3节）。为了在认证防御上获得高性能，需要高Rc，它与p1成正比（公式3）。预测最可能类别（c1）的概率（p1）即置信度取决于去噪网络Dn的性能。然而，使用现有技术[27]在给定的有限训练数据Dlimtrain上训练的Dn产生了较差的认证结果（如图1所示）。即使我们尝试使用不同的传统方法（如权重衰减、数据增强和混合策略）来最小化Dn在Dlimtrain上的过拟合（因为|Dlimtrain|�|Dtrain|），我们只观察到认证准确性的轻微改善（参见表1、2）。因此，我们提出了我们的方法（“DE-CROP”），通过使用Dlimtrain来制作边界和插值样本，然后使用它们来训练具有适当损失的去噪器。0有限0训练数据0生成0边界样本0生成0插值样本0图2.CIFAR-10特定类别的预训练基分类器特征的t-SNE可视化。我们生成的样本（插值和边界）增加了有限原始训练数据的特征多样性。04.1. 生成边界和插值样本0在图2中，我们展示了预训练基分类器Bc在特定类别上的逻辑层特征的t-SNE图的可视化。Dlimtrain的有限类别样本对应的类别特征以绿色显示（在左侧）。我们专注于提高有限训练样本的特征多样性。为此，我们首先估计类边界样本，这些样本在t-SNE的边界区域具有相应的特征。通过对输入样本进行小的人类难以察觉的噪声（即对抗性噪声）进行小心扰动的优化过程，对抗性攻击[22]合成样本。模型在这些样本上被愚弄（即，预测被翻转为其他类别）。由于这些样本越过决策边界，这些边界是通过在输入原始样本上添加小的噪声构造的，它们通常非常接近决策边界。此外，它们是人类难以察觉的，并保留输入类别样本的类语义。因此，对抗性样本作为类边界样本的良好候选。对于Dlimtrain的任何第i个训练样本（即xio），我们通过计算得到边界样本（xib）: Interpolated logit feature of sample sample sample sample sampleoptimized: Limited training datset: Boundary samples: Adversarial Noise: Interpolated samples: sampled gaussian noise: Gaussian perturbedlimited training datset: Gaussian perturbedboundary samples: Gaussian perturbedinterpolated samples: Denoiser Network: Pretrained ClassifierGRL: Gradient Reversal Layer: Domain Discriminator: Penultimate Layerfeatures of: Label Consistency Loss: Cosine Similarity Loss: Maximum Mean Discrepancy Loss: Domain Discriminator Loss: Mean Square Error: Mixing Coefficient : Ground Truth: Frozen: Trainable: Logit feature of on input̸(5)46260阶段10GRL0Logit Softmax0sample()，0阶段1：生成边界和插值样本0阶段2：训练去噪网络0图3.提出的方法（DE-CROP）涉及的不同阶段，该方法仅使用有限的训练样本（xo）对预训练分类器（Bc）提供对l2扰动的鲁棒性。通过对抗攻击生成的样本充当代理边界样本（xb）。使用xo和xb，在阶段1中生成插值样本（xint）。生成的样本与有限的训练数据一起在阶段2中用于训练去噪网络（Dθn），通过对齐实例级和分布级的特征表示使用Llc、Lcs、Lmmd和Ldd损失。计算这些损失的前向传递由不同的颜色表示。0对于以下关系成立的对抗性噪声δ：0xi b = xi o + δ，0∥δ∥∞ < ϵ，ϵ > 0，label(Bc(xi b)) ≠ label(Bc(xi o))0接下来，我们通过对生成的边界样本xi b和原始训练样本xio的特征进行混合来获得插值特征，具体如下：0Logitiint = α × Bc(xi o) + (1 − α) × Bc(xi b) (6)0这里α是混合系数。插值特征、类边界特征和原始有限类样本特征在t-SNE图（图2）中分别用黄色、蓝色和绿色突出显示。这些插值特征在保持标签的同时有助于改善特征多样性，从而提高了认证准确性（参见第5.2节）。我们通过扰动原始样本xi0以使其特征响应与Logitiint匹配，使用均方误差损失（Lmse）来构造与插值特征Logitiint相对应的输入样本（即xiint）。数学上，我们得到插值样本xiint如下：0xiint ← minxLmse(Bc(x), Logitiint) (7)0其中x初始化为xio，并且通过真实标签作为Logitiint进行训练。模型Bc不可训练，但允许梯度从模型反向传播以更新输入x。因此，我们获得了与每个训练样本对应的边界和插值样本。0有关输入空间中边界和插值样本的可视化，请参见补充材料。它们都保留了类的语义。我们生成的边界样本xb和插值样本xint与有限的训练样本xo一起用于训练去噪网络Dn，我们在后续子节中讨论。04.2. 去噪网络（Dn）的训练0去噪网络Dn附加在预训练的基础分类器Bc之前，使其适用于随机平滑。除此之外，我们还添加了一个域判别器网络Dd，其输入是Bc倒数第二层的归一化特征。判别器Dd学习区分干净样本的分布和高斯扰动输入样本的去噪输出的分布。受到域自适应文献[12]的启发，我们在将归一化的倒数第二层特征输入判别器之前使用梯度反转层（GRL），该层允许正向传递但在反向传递中反转梯度方向。因此，这个负梯度反向传播到去噪网络Dn，帮助其产生去噪输出，从而在预训练的Bc分类器上产生难以区分的域不变特征。有关网络Dn和Dd的架构细节，请参见补充材料。提出的框架（“DE-CROP”）涉及的整体步骤也显示在图3中。该网络使用我们生成的数据和有限的数据进行训练。Llc = 1/N k �k(8)Lcs = 1/N kkLdd =L(Dθn, Dϕd) = β1Llc − β2Lcs + β3Lmmd + β4Ldd (12)Without Reg.20.604.600.800.0046270通过使用针对不同目标的不同损失对训练数据D lim train进行训练，以确保在B c上进行正确预测并在高级特征相似性匹配上与高斯扰动输入的去噪输出和干净原始训练样本的B c上获得。下面描述了各自的损失：确保标签一致性：与[27]类似，我们使用交叉熵损失（L ce）确保预训练网络B c在原始干净数据和其高斯扰动对应的去噪输出上预测的标签相同。0i =1 L ce ( softmax ( B c ( D n (¯ xi o))) ,0label ( B c ( xi o )))0在样本级别上强制特征相似性：在完整训练数据D train上训练的预训练基础分类器B c具有很高的区分能力。为了利用这一点，我们在B c网络的对数层使用余弦相似性损失，以鼓励我们生成的数据的去噪输出的对数特征与有限原始训练样本D lim train的特征一样具有区分性，通过最大化此损失。0i =1 ( CS ( B c ( D n (¯ xi b )) , B c ( xi o0CS ( B c ( D n (¯ xi int )) , B c ( xi o )) ) , s.t. CS ( w, z )= w T z0（9）在分布级别上强制特征相似性：与L cs应用于样本级别不同，我们通过在B c网络的归一化预对数层上使用最大均值差异（MMD）[14]损失，来强制我们的去噪生成数据集与有限原始训练数据集之间的分布级别匹配。0L mm0MMD ( F B c ( D n (¯ x int )) , F B c ( xo )) (10)0此外，我们还使用二元交叉熵损失（Lbce）训练域鉴别器网络D d（由ϕ参数化），以区分高斯扰动样本和干净样本的分布。0xi ∈ D lim train ∪ D n (¯ D lim train ) L bce ( Dd ( F B c ( xi )) , di ) (11)0在这里，如果xi ∈ D lim train，则di = 1，如果xi ∈ D n (¯ D lim train )，则di = 0。通过GRL[11]（将计算的梯度乘以-1）反向传播负梯度，以更新去噪器网络D n 的参数θ，使有限训练数据D lim train及其对应的高斯损坏数据的去噪输出（D n ( ¯ D lim train)）在网络B c 上具有域不变性。0因此，总损失可以写成如下形式：0在测试时，使用具有最佳参数θ�的训练过的去噪器网络D n与基础分类器B c 进行评估。05. 实验0我们在两个广泛流行的图像分类数据集上展示了我们提出的方法（DE-CROP）的有效性，即CIFAR-10[18]和Mini-ImageNet [33]。我们通过从Dtrain中随机选择1%和10%的样本（确保类别平衡）来限制上述数据集的训练集大小。我们的基线是使用Llc损失（类似于[27]）训练去噪器。我们固定选择的样本，并使用ResNet-110和ResNet-12[16]网络（分别用于CIFAR-10和Mini-ImageNet）作为我们的预训练分类器（B c），对于我们的所有消融和与最先进技术的比较，σ的值都为0.25，除非另有说明。请参阅补充材料，了解有关不同噪声强度σ（0.12、0.50、1.00）、有限训练数据D limtrain的数量（5%、10%、20%、100%）和预训练分类器Bc的架构选择的其他消融。我们将最终损失方程（参考公式12）的权重设置为β 1 、β 2 、β 3 、β 4，分别为1、4、4、1。在接下来的子节中，我们首先展示传统技术的有限效益，然后展示DE-CROP的每个组件的优势，并与最先进的技术进行比较。05.1.通过传统技术提高有限训练数据上的认证性能0D n 在有限数据存在时，使用[27]提出的L lc目标进行训练会严重过拟合，导致认证准确性较差（参见图1）。在本节中，我们探讨了传统的监督学习技术，如显式正则化和数据增强，是否能够在处理有限数据时有意义地提高认证准确性。0方法0标准认证鲁棒认证0（r=0.00）（r=0.25）（r=0.50）（r=0.75）0L 1 Reg. 22.60 5.80 0.60 0.000L 2 Reg. 27.80 7.80 0.80 0.000表1.在面对对抗攻击时，添加权重衰减正则化器（L 1 和L 2）对有限数据认证的影响。L 2正则化获得更好的认证标准和鲁棒准确性。0No Aug.27.807.800.800.00Mixup24.205.400.600.00Cutmix19.803.200.000.0046280在有限数据存在时，它无法改善数据的内在多样性。因此，在表2中，我们探讨了传统的仿射和专门的数据增强方法（如mixup [36]和cutmix [35]）与L 2reg.结合在限制训练数据上进一步提升性能的效果。表2中的第2-4行对应于仿射变换，其中增强的强度逐渐增加（即策略1 < 策略2 <策略3）。我们还尝试了广泛流行的增强技术：'mixup'和'cutmix'。令人惊讶的是，我们观察到策略1（第2行；最轻的增强）表现最好，紧随其后的是'no-aug.'。我们假设如果增强策略过于激进，B c 可能会做出错误的预测，导致D n学习的梯度嘈杂，从而导致认证准确性下降。0方法0标准认证鲁棒认证0（r=0.00）（r=0.25）（r=0.50）（r=0.75）0Aug.（策略1）29.80 9.20 1.40 0.000Aug.（策略2）26.40 7.40 1.00 0.000Aug（策略3）21.00 3.00 0.20 0.000表2.研究不同强度水平（策略）、mixup和cutmix策略在限制训练数据上减小过拟合的效果。轻度增强（策略1）对不同半径的l2扰动相对于无增强策略有微小改进。0因此，策略1和L 2-reg的组合提高了认证标准和鲁棒准确性。我们将这个组合作为基线进行进一步的实验，从而进行正交改进。05.2.我们生成的数据的有效性0由于有限数据中缺乏多样性，导致认证准确性下降的一个关键原因是。我们通过生成提供特征空间多样性的合成样本来解决这个问题。如在提出的部分中详细说明（参见第4.1节）：对抗样本（称为边界样本，即x b）是这个任务的一个很好的候选，因为它们通过最小可能的扰动翻转分类器的预测，从而允许D n在边界区域的稀疏样本上进行训练。此外，我们还生成特征介于原始样本和边界样本之间的样本，通过最小化插值logits和生成样本logits之间的L mse损失来构造（如等式7所描述）。我们在表3中通过实验证明了我们的动机，观察到在x i b和相应的x i int上使用L cs在性能上取得了巨大的改进。0基准。有趣的是，仅使用xib时性能的提升相对较小。这一观察进一步加强了我们关于xi b和xiint提供的信息互补性的直觉。此外，与在训练时间的每次迭代中生成对抗样本的对抗训练不同，我们只需要生成边界和插值样本一次（训练时间几乎不增加），因为预训练分类器Bc是固定且不可训练的。0方法0标准认证鲁棒认证0（r=0.00）（r=0.25）（r=0.50）（r=0.75）0基准 29.80 9.20 1.40 0.000我们的方法（带有边界样本）31.60 7.80 1.00 0.200我们的方法（带有边界+插值样本）48.80 22.00 6.00 0.800表3.使用我们生成的样本改善认证的好处。使用边界和插值样本，我们在原始和L2扰动数据上获得了显著的认证准确性提升。05.3.分布对齐：在有限数据设置中增强认证0在表4中，我们观察到使用领域鉴别器（Dd）以及先前介绍的Lcs损失效果很好，标准认证准确性提高了6％，在r=0.25时认证鲁棒准确性提高了4％，相比仅使用Lcs。我们还探索了是否将Dn配备明确的分布差异损失（如Lmmd）与Dd结合使用也能取得良好效果。直观地说，将Lmmd与Lcs一起应用应该使Dd的工作更加困难，从而得到更好的Dd。我们在表4中确实观察到这一点，使用Lmmd与Lcs和Ldd设置相结合，标准和鲁棒准确性都有所提高（在各个半径上）。因此，使用Lmmd和Ldd与先前讨论的Lcs和Llc相结合构成了我们的最终方法：DE-CROP05.4.与最先进方法的比较0在本节中，我们将我们的方法DE-CROP与最先进的鲁棒性认证技术进行比较，即Salman等人的去噪平滑方法[27]和Cohen等人的高斯增强方法[6]。由于Salman等人在其论文中没有报告有限数据场景下的性能，我们使用他们官方实现的代码2来评估他们提出的方法（Dn withLlc）在仅有1％（对于CIFAR-10）和10％（对于Mini-ImageNet）Dtrain的情况下的性能。同样，对于Cohen等人，我们重新训练分类器02 https://github.com/microsoft/denoised-smoothing54.0026.006.801.8057.6027.209.202.20L2 RadiusCertified Accuracy02040600.000.25AlexNet (White-Box)ResNet-18 (Surrogate)Half-AlexNet (Surrogate)46290方法0标准认证鲁棒认证0（r=0.00）（r=0.25）（r=0.50）（r=0.75）0基准 29.80 9.20 1.40 0.000我们的方法（实例级别）48.80 22.00 6.00 0.800我们的方法（通过鉴别器进行实例+分布级别）0我们的方法（通过鉴别器和MMD进行实例+分布级别）0表4.除了在实例级特征匹配方面的性能提升外，当去噪和干净数据的分布在特征空间中通过领域鉴别器和MMD进行对齐时，我们观察到认证标准和鲁棒准确性进一步提高。0仅对可用的有限训练数据进行高斯增强。尽管Cohen等人的技术对于我们的问题设置来说是不可行的，因为API提供者可能不喜欢重新训练和替换已部署的模型，但我们仍然比较了我们的性能，因为高斯增强在存在完整训练数据的情况下通常优于先前基于去噪器的方法。如图4所示，我们提出的DE-CROP方法在CIFAR-10上明显优于Salman等人，将认证标准准确性提高了27％，并在各个半径上持续提高鲁棒准确性。Cohen等人的性能在所有半径上下降到10％，表明网络的行为类似于随机基线（即无论输入是什么，都以相等的概率预测每个类别）。我们观察到在Mini-ImageNet上也存在类似的趋势，我们在性能上明显优于Salman等人和Cohen等人，进一步证明了我们方法的广泛适用性。0CIFAR-10 Mini-ImageNet0图4.我们方法（DE-CROP）与其他方法的性能比较。我们在两个数据集上都表现出色。我们还与Cohen等人进行了比较，其中分类器是从头开始训练的，而我们的方法不可行。05.5. 有限训练数据下黑盒分类器的认证0在前面的章节中，我们假设可以对预训练的基础分类器 B c进行白盒访问，即可以通过 B c反向传播梯度来优化去噪器（Dn）。然而，由于API提供者可以限制仅访问 B c的预测结果（即黑盒），这种情况并不总是成立。0出于专有原因，由于黑盒设置限制了 B c的梯度信息，我们首先使用黑盒模型窃取技术[2]训练一个替代模型：S m。我们使用允许梯度反向传播的 S m来训练使用我们提出的DE-CROP方法的去噪器（参见图3）。最后，我们使用通过 S m训练的去噪器来验证黑盒分类器 B c 的鲁棒性。0图5.在黑盒场景中（无法访问预训练模型权重）研究我们方法的有效性。我们观察到与白盒设置相比，无论是经过认证的标准准确性（l r 2 = 0 .00）还是鲁棒准确性（l r 2 = 0 . 25），性能都有轻微下降。0在图5中，我们比较了使用通过 S m训练的去噪器（“黑盒访问”）和直接在 B c上训练的去噪器（“白盒访问”）对 B c的认证性能。我们以Alexnet作为 B c，并选择了两种不同的 S m，即ResNet-18和Half-Alexnet。我们的方法DE-CROP在不同 S m架构下的黑盒设置中表现非常相似。此外，与白盒设置相比，性能下降很小，突出了我们的技术在不共享预训练分类器权重时的适用性。06. 结论0我们提出了我们的方法（DE-CROP），首次解决了在有限训练数据环境中为预训练分类器提供可证明的鲁棒性保证的问题。我们的方法包括两个步骤：a）生成边界和插值样本，确保特征多样性；b）利用生成的样本和有限的训练样本，使用提出的损失函数训练去噪器，以确保去噪输出与干净数据在两个不同粒度（实例级和分布级）上的特征相似性。我们通过广泛的消融和CIFAR-10和Mini-ImageNet数据集上的实验证实了生成数据的有效性以及各个损失函数的贡献。此外，我们的方法在黑盒设置中表现良好，因为它提供了与白盒设置相似的认证性能。0致谢本工作得到了印度DAE-BRNS的青年科学家研究奖（批准号59/20/11/20

下载后可阅读完整内容，剩余1页未读，立即下载