低曲率激活减少对抗训练中的过拟合情况

103 浏览量更新于2023-10-13 收藏 1007KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

16423低曲率激活减少对抗训练中的过拟合马里兰大学马里兰大学{vsingla，ssingla，sfeizi，djacobs}@cs.umd.edu摘要对抗性训练是对抗性攻击最有效的防御之一以前的工作表明，过拟合是对抗训练中的一个主要现象，导致神经网络中测试和训练精度之间存在很大的泛化差距。在这项工作中，我们表明，所观察到的泛化差距是密切相关的激活函数的选择特别是，我们证明了使用具有低（精确或近似）曲率值的激活函数具有正则化效果，可以显着减少对抗训练中的标准和鲁棒泛化差距我们观察到这种效应2.252.001.751.501.251.000.750.50ReLU列车ReLU测试SiLU列车SiLU测试0 25 5075100125150175 200历元对于诸如SiLU的可微分/平滑激活以及诸如LeakyReLU的不可微分/非平滑激活两者。在后一种情况下，激活的“近似”曲线较低。最后，我们证明了对于低曲率的激活函数，逆向训练模型的双下降现象不会发生。1. 介绍深度神经网络很容易被对抗性的例子所欺骗，这些例子是通过对干净的输入施加小扰动来计算的[65]。近年来，对抗性攻击在机器学习社区中得到了很好的研究[10，43，23，54，21，36，37]。在文献[53，64，7]中已经提出了几种对抗性攻击的防御方法。在我们的工作中，我们专注于对抗训练[43，23，35]，这是最有效的经验防御之一对抗性训练涉及在对抗性扰动数据而不是干净数据上训练网络然而，已经证明，通过普通对抗训练产生的网络不能很好地泛化[59，56，18]。对抗训练神经网络的鲁棒训练和测试精度之间的差距，即。鲁棒的泛化间隙可以远大于在标准经验风险最小化期间实现的泛化间隙。图1：在CIFAR-10上稳健训练的ResNet-18模型的学习曲线。使用具有低曲率的激活函数（诸如SiLU）防止鲁棒过拟合，实现并保持低测试鲁棒损失，即使与具有ReLU激活函数的网络的最佳早期停止检查点相比。学习率在第100和第150个历元处降低10倍。第在这项工作中，我们证明了鲁棒的泛化间隙受到激活函数的曲率的显著影响，并且具有低曲率的激活可以作为对抗训练的有效正则化器，有效地缓解了这种现象。Rice等人[56]对于逆向训练的ReLU网络，通过允许模型训练直到收敛，无法实现最佳的鲁棒测试精度。对抗性训练的特点是，在某个点之后，进一步的训练将继续减少鲁棒训练损失，而鲁棒测试损失开始增加。这种现象被称为鲁棒过拟合，并最终导致测试集上的鲁棒准确性差Rice等人也表明，虽然传统的方法，如L1，L2正则化可以减轻鲁棒的过拟合，没有办法比简单的早期停止工作得更好。由于即使在网络过度拟合对抗性示例之后，标准准确度也会继续提高，因此提前停止会导致选择具有高鲁棒准确度的模型与具有高标准准确度的模型之间的权衡[11]。鲁棒损失16424在这项工作中，我们系统地研究了激活功能对泛化的影响。我们首先从理论上分析了激活函数的最大曲率与对抗鲁棒性之间的关系我们的论文的一个关键观察是，对于光滑的激活函数，函数的二阶导数的最大值，即。最大曲率对鲁棒泛化具有显著影响。具体地，通过使用具有低曲率的激活，可以减少鲁棒泛化间隙，而具有高曲率的鲁棒泛化间隙增加。例如，在图1中，针对对抗训练的CIFAR-10模型，ReLU激活函数的对抗示例的测试误差在第一次学习率下降后下降，然后保持增加然而，对于SiLU [55]，具有低曲率的平滑激活函数，鲁棒测试损失不断降低。我们还表明，激活的选择有一个类似的效果标准的泛化差距。换句话说，示出大的鲁棒泛化间隙的激活也具有大的标准泛化间隙，反之亦然。因此，我们的我们工作的主要目标是了解激活函数的曲率与对抗训练之间的关系，并强调可用于训练对抗鲁棒模型的发现。Xie等人[72]显示，用“平滑”1激活函数（如Softplus或SiLU）替换ReLU（一种广泛使用的激活函数）他们假设平滑激活允许对抗训练找到更难的对抗示例，并计算更好的权重参数梯度更新。然而，进一步的工作已经证明，虽然平滑激活函数可以积极地影响干净和鲁棒的准确性，但是趋势不像Xie等人观察到的那样清楚。因此，ReLU网络仍然是鲁棒分类的突出选择[26，51]。与Xieet al.[72]，我们考虑了一个强对抗训练，并表明激活的平滑性不需要获得对抗训练的正则化效果。在我们的实验中，我们表明，相同的正则化可以实现使用低“近似”“曲率”的非光滑激活。然而，对于非平滑活动，曲率不是很好定义的。我们考虑LeakyReLU，这是一个非光滑的激活函数，并使用激活斜率的差异，在积极和消极的区域作为近似的最大曲率的激活函数。即使对于这样的非光滑激活函数，我们观察到，如果近似曲线是低的，鲁棒过拟合现象不会发生。与Xieet al. [72]我们的经验表明1我们使用与Xie等人相同的平滑度定义，函数是C1光滑的，即一阶导数处处连续如果平滑激活具有高曲率，则平滑激活的性能可能比ReLU更差。最后，我们研究了标准训练[4]和鲁棒训练[48]中出现的双下降泛化曲线现象。双下降描述了以下现象。随着模型复杂度的增加，测试准确率先增加后降低。然后，在达到- ING被称为插值阈值的临界点，测试精度开始再次增加我们表明，[56]报告的使用ReLU进行鲁棒过拟合的双下降曲线不适用于具有低曲率的激活函数，如SiLU。2. 相关作品Goodfellow等人[23]提出了一种基于快速符号梯度法（FGSM）生成对抗性样本的对抗性训练方法。在此基础上，在随后的工作中提出了一种称为基本迭代方法[35]的更强大的对手，使用多个较小的步骤来生成对抗性示例。Madry等人[43]通过多次随机重启来扩展这种对手，以在对抗数据上训练模型进一步的工作集中在使用诸如特征去噪[74]，超球体嵌入[52]，平衡标准和鲁棒误差[80]以及使用友好的对抗数据[81]等方法来提高对抗训练过程的性能。另一项工作集中在加速对抗训练，因为它增加了时间复杂度，通过减少攻击迭代和计算梯度的计算复杂度[78，60，69]。另一个切线的工作重点是对抗训练的普遍攻击[61，5]。除了对抗性训练之外，还提出了其他几种防御方法，例如防御蒸馏[53]，预处理技术[27，64，7]和随机变换。mations [73，16，41]或对抗性示例的检测[44，19]。然而，这些方法后来被更强大的对手打破[3，67，9]。这些防御方法被证明依赖于模糊梯度（梯度掩蔽），这提供了一种虚假的安全感。由于作为防御的梯度掩蔽的比特历史，Xieet al. [72]提出使用具有单步PGD攻击的平滑激活，在ImageNet上达到现有技术的鲁棒性能[14]。Xie等人假设使用平滑激活为网络提供了更好的梯度更新，并允许攻击者找到更难的示例。由于文献中提出的许多防御措施都被攻破，另一个单独的工作重点是认证防御，它可以保证对对抗性攻击的鲁棒性。这些方法使用诸如混合整数规划方法[66，42，20，8]和[66，42，20，8]的技术。可满足性模理论[33，17，31]。一些证书-16425W.Σd（x，x）≤SiLU Mish GeLU LiSHT激活函数一阶导数二阶导数3.02.52.01.00.52.01.51.50.01.01.00.50.50.50.01.00.0图2：激活函数及其一阶和二阶导数。阳离子方法限制了网络的全局Lipschitz常数，这对于具有多层的大型神经网络来说通常是松散的[2，24]。另一种工作方式专注于使用其他技术提供松散的证书，例如随机平滑[13，38，40，1]，ab-抽象表示[22，45，62]，区间界传播，二阶信息[63]，[25]和对偶和线性规划[58，68，70]。3. 背景3.1. 对抗训练为了训练对对抗性示例具有鲁棒性的网络，使用以下鲁棒优化框架：minE（x，y）DΣmaxl（fw（x），y）Σ过度参数化深度学习模型中缺乏过拟合是深度学习的一个有趣现象[77]。这些模型可以被训练为有效地零训练误差，而不会对测试时间性能产生影响。因此，现在深度学习的标准做法是训练更长的时间并使用大型超参数化模型，因为测试精度通常会提高到插值点，也称为双下降泛化[4，48]。Schmidt等人[59]然而，已经表明对抗鲁棒泛化所需的采样复杂度明显高于标准泛化的采样复杂度。在最近的工作中，Riceet al.[56]已经表明过拟合现象在对抗训练中占主导地位，Rice等人还表明，双下降生成曲线似乎随着模型大小的增加而保持，但不是通过训练更长时间。最近的一项工作表明，可以使用先前提出的技术（如知识蒸馏[75]和随机权重平均[32]）的组合来减轻鲁棒过拟合[12]。另一项最近的工作提出使用对抗性权重扰动[71]来减轻鲁棒过拟合，这也可能增加训练时间。AVMixup [39]还讨论了稳健过拟合的思想，并提出了AVMixup 、标签平滑和特征分散的组合，以减轻CIFAR-10上的稳健过拟合。与这些工作相反，我们发现了一种新的方法来减轻这种现象，而不使用复杂的正则化技术，这可能会导致额外的超参数和增加的训练时间;我们只修改网络的激活函数其中，X是具有从底层数据分布D，I（.，. 是损失函数，fw是由w参数参数化的模型，d（.，. ）是距离函数，且ε是允许的最大距离。通常，距离函数被选择为lp-范数球，诸如l2和l∞-范数球，尽管在[36，37]中已经考虑了其他非lp威胁模型。因此，对抗训练由两个优化问题组成，内部最大化问题要构造对抗样本，以及更新权重参数w的外部最小化问题。为了解决内部最大化问题，文献中使用了不同类型的攻击，例如投影梯度下降（PGD）[43]或快速梯度符号法（FSGM）[69]。例如一种l∞PGD攻击者以从均匀分布U中提取的随机初始扰动开始，并且以α步长朝向l∞梯度方向迭代地调整扰动，然后投影回到具有最大半径ε的l∞范数球上：x0=x+U（−ε，ε）x¨t=x¨t+α·signx¨tl（f（x¨t），y）x¨t+1=max（min（x¨t，x+ε），x−ε）3.2. 鲁棒过拟合过度参数化模型的一个令人惊讶的特征是它们在实践中观察到的良好的泛化行为。[4、50]。尽管过参数化模型具有足够的模型复杂性，即使在随机标签上也能记住数据集[77]，但它们可以在训练时被训练到零错误20220220216426∗∗∗∗··22.52.01.51.00.50.00.51.0LiSHT葛路Mish丝路0 25 50 75100125150175200历元函数的二阶导数2的最大值，即maxxf′′（x）。我们考虑以下平滑激活函数，其按曲率递减排列如下（函数及其一阶和二阶导数见图2）：1. 线性缩放双曲正切（LiSHT）[57]：f（x）= xtanh（x），该函数在所考虑的激活中具有最高的曲率。2. 高斯误差线性单元（GeLU）[29]：f（x）= xΦ（x），其中Φ（x）是高斯累积分布函数。图3：具有不同平滑激活的Resnet-18模型的一批测试示例的最大特征值。高曲率激活的特征值较大。对泛化没有不利影响的集合。对于标准（非对抗性）经验风险最小化设置，现代收敛曲线表明，在长时间训练的同时，测试损失继续降低[48]。这导致了尽可能长时间地训练模型以实现更好的泛化[30]。然而，在对抗训练中，有人指出，训练时间越长，可能导致过拟合，并导致测试性能越差[56]。这种现象被称为“鲁棒过拟合”，并且被示出为在各种数据集、模型架构和不同威胁模型的情况下发生正则化器是在实践中用于减轻过拟合的影响的标准工具，特别是在参数的数量大于数据点的数量时的情况下。标准的正则化技术（诸如11和12正则化）和数据增强方法（诸如Cutout [15]和Mixup [79]）已被证明对鲁棒过拟合现象无效[56]。只有使用验证数据集的早期停止和用未标记数据增强数据集的半监督学习方法已被证明是有效的，并且减少了对抗性鲁棒学习的泛化间隙。然而，使用半监督方法的数据扩充需要使用可能无法获得的额外数据。早期停止导致选择较早的检查点，并导致鲁棒准确性和标准准确性之间的权衡，因为训练时间更长导致更好的标准测试准确性。4.激活曲率对对抗训练在本节中，我们考虑了光滑激活函数的曲率对标准和鲁棒的一般化间隙的影响。我们定义曲率为光滑的活动-3. Mish[46]：f（x）=xtanh（ln（1+exp（x）是一个类似于SiLU的光滑连续函数4. SiLU[55]：f（x）= x sigmoid（x）是对ReLU的平滑近似，但对于x 0具有非单调“<凸块”。我们也进行实验非平滑ReLU激活作为基线。代码重新-可以在https://github.com/vasusingla/low_curvature_activations上找到我们的实验。4.1. 分析激活对稳健性的影响在本节中，我们分析了激活函数的曲率与对抗鲁棒性之间的理论关系。我们的分析背后的动机是为我们的观察提供直觉，我们没有严格证明鲁棒性和激活曲率之间的单调关系。为了阐明这一点，我们首先考虑输入Hessian（即，输出相对于输入的二阶导数）和对抗鲁棒性。我们考虑一个简单的二进制分类器f，实现为一个两层神经网络。令w1、w2分别是第一层和第二层的权重矩阵。设σ（）是一个二次可微激活函数函数和σ′′（）表示ac的二阶导数激励功能然后，两层神经网络可以可以表示为f（x）=wTσ（w1x）。假设网络的最后一层输出单个logit，使用sigmoid函数将其转换为概率。换句话说，样本在类别0中的概率被给出为p（x）= sigmoid（f（x））。假设如果p（x）0，则样本被分类为类别1<。5，则样本x被分类为类1当且仅当f（x）<0，否则分类为类0。换句话说，我们使用概率阈值0。5、把一个例子归为第一类。我们假设神经网络可以使用二阶泰勒展开局部很好地近似。我们现在使用[47]关于关系的结果[2]请注意，这个曲率的定义与用于二次可微函数的曲率的标准定义不同。16427Xǁ ǁ减小曲率2.01.51.00.50.0ReLU0 50 100150200历元LiSHT2100 50 100150200历元2.01.51.00.5葛路0 50 100150200历元2.01.51.00.5Mish0 50 100150200历元2.01.51.00.5丝路0 50 100150200历元图4：Resnet-18上不同激活函数的CIFAR-10数据集的学习曲线。ReLU激活是非平滑的并且被包括作为基线，所有其他激活通过从左到右减小曲率来排序上图显示标准误差和稳健误差，下图表示训练和测试数据的损失曲线。在输入Hessian和鲁棒性之间。假设x属于类别1，则对于要被分类为类别0的x+δ，欺骗分类器的最小l2扰动可以被写为：δ*=arg minδ现在我们展示激活函数和输入曲率之间的关系。对于所考虑的两层神经网络，相对于输入x的Hessian被给出为：2f（x）=wTdia g.σ′′（w1x）w2Σw1（2）S.T. f（x）+δ x1T1T2f（x）δ+δ f（x）δ≥0X2x其中表示两个向量之间的Hadamard乘积。在这些假设下，可以证明δ*的大小相对于输入曲率可以有上界和下界。我们使用以下引理-引理1. [47]设x为suc h，则c=−。f（x）≥Σ0，且设g=xf（x）. 假设ν=λmax≥0，f（x）tors. 等式2表明输入的Hessian直接取决于σ“”（. ），这表明激活函数的曲率的增加导致输入Hessian的范数最后，虽然我们假设我们的激活是平滑的，但我们预计对于非平滑激活。我们经验性地显示ν和acti之间的关系表示最大特征值，并且令u为特征向量对应v。然后，vation curvature适用于经过对抗训练的Resnet-18模型图中所示的学习曲线。3显示g.ν2νc1+g2−1≤ǁδ∗ǁgTu .2νcΣ对于具有高曲率的激活，输入Hessian的最大本征值确实更大。该结果与我们先前的观察结果相结合，因此表明高激活曲率确实导致较低的鲁棒性。≤ν1+（gTu）2 −1（一）这个引理表明，在保持所有其他因子不变的情况下，δ*大小的上界和下界随着ν的减小而增大因此，δ*的增加增加了找到一个对抗所需的最小l2例如，对于输入x，导致增加的鲁棒性。因此，输入Hessian的低最大特征值导致更高的对抗鲁棒性。4.2. 激活曲率与泛化间隙在本节中，我们展示了针对不同平滑激活函数的对抗训练的结果。我们假设，对于对抗性训练的网络，低曲率的激活更鲁棒，并且具有小的泛化间隙。实验设置-我们在CIFAR-10和CIFAR-100数据集上显示了我们的结果[34]。为了与最佳早期停止检查点[56]进行比较，我们随机将损失Σ16428数据集激活鲁棒精度标准品准确度最终列车最终测试最佳值Diff.最终列车最终测试最佳值Diff.LiSHT92.2747.2150.3145.0699.982.5382.4417.37ReLU82.4649.2551.0633.2198.983.7381.6215.17CIFAR-10葛路65.4549.3150.1516.1492.4182.8179.259.6Mish5749.1849.627.8286.4880.0579.966.43丝路56.1548.9149.417.2485.7980.5580.575.24LiSHT93.5818.6222.4874.9699.9249.1249.1350.8ReLU79.8718.8125.9161.0698.5851.5851.0547CIFAR-100葛路57.9621.5626.3336.489.1853.6749.535.51Mish39.6524.2725.8815.3871.553.4348.3718.07丝路37.8124.2925.8213.5268.7352.6552.1816.08表1：用ResNet-18对CIFAR-10和CIFAR-100进行不同活化的性能。我们基于“最佳Val”列中所示的验证集上的最佳稳健准确度使用最佳检查点。泛化差距，即最终训练和最终测试准确度之间的差异在“Diff.”栏。对于具有高曲率的激活，标准和鲁棒准确性两者的泛化间隙增加。将原始集分别用90%和10%的图像分成训练集和验证集。我们考虑l∞威胁模型，并使用PGD-10步攻击与一个单一的重启训练和PGD-20步攻击，其中5次重启用于报告测试准确度。对于攻击超参数，我们使用 ε=8/255 和α=2/255 。我们使用ResNet-18 [28]架构进行所有实验，除了使用Wide ResNet-28 [76]的双下降曲线实验。我们在整篇论文中使用与[56]相同的训练设置，即动量为0的SGD优化器。9、体重衰变5×10−4，200个历元，批量大小为128。我们发现激活函数的选择对鲁棒过拟合有很图4显示了我们的结果。首先，我们再现了Rice等人观察到的鲁棒过拟合的效果。[56]所有的活动。鲁棒训练损失持续下降，然而鲁棒测试损失在第一次学习率下降后不久上升然而，对于标准训练和标准测试损失，两者在整个训练中都保持下降。训练在开始时似乎进行得很顺利，但是在第100和150个时期的学习率下降时，鲁棒测试误差短暂下降，然后随着训练的进行而不断增加。这种现象表明，与标准训练不同，训练直到收敛才能达到相比之下，对抗训练的最佳标准精度仍然是通过训练直到收敛来达到的。我们发现，激活函数具有较低的曲率的鲁棒过拟合现象发生在较小的程度。与Xieet al. [72]，我们还表明LiSHT平滑激活函数的性能比非平滑ReLU函数差，并显示出更大的鲁棒泛化间隙，如图所示。4.我们还注意到，对于显示出较大的鲁棒泛化间隙的活动，标准泛化间隙也更高。最后，激活函数的曲率对鲁棒性和标准泛化差距都有直接影响，如图所示学习曲线对于具有高曲率的激活，例如 LiSHT 和GeLU，泛化间隙大，并且对于具有低曲率的激活，例如Mish和SiLU，泛化间隙低得多。请注意，尽管对于具有较低曲率的激活，训练损失/误差较高，但对抗训练更加稳定，并且允许训练直到收敛，从而实现更好的标准准确度并保持类似的鲁棒准确度。我们在表1中显示了定量结果为了显示由于鲁棒过拟合（从峰值鲁棒准确度的性能衰减）导致的差距，我们还显示了使用验证集的早期停止发现的最佳鲁棒准确度。我们还报告了最佳鲁棒精度检查点（而不是最佳标准精度检查点）的相应标准精度如表1所示，CIFAR-10和CIFAR-100的鲁棒和标准泛化差距减小。对于具有较小曲率的激活，鲁棒过拟合的影响（即最佳和最终检查点对鲁棒准确性的差异例如，过拟合间隙从3下降。1%至0。CIFAR-10上SiLU为5%。然而，标准准确度要么保持不变，要么通过训练更长时间来提高（与最佳检查点相比）。在CIFAR-100上，在训练直到收敛时，SiLU同时实现了比ReLU更高的鲁棒性和标准准确性。因此，这些结果验证了我们的主张，即低曲率激活减少了鲁棒的过拟合。使用CIFAR- 100的最佳验证检查点，SiLU实现了与ReLU几乎相同的鲁棒准确性和更高的标准准确性。因此，结果表明，对于对抗训练，激活函数的曲率在获得高鲁棒性和标准准确性方面起着重要作用4.3. 参数化Swish为了进一步了解激活曲率对标准和鲁棒泛化差距的影响，我们进行了分析。164293210123→∞.≤|−|=0.5= 1= 2= 4= 10k= 0.5k= 0.3k= 0.2k= 0k= 0.23.0Swish参数LeakyReLU32.522.01.511.000.50.010.5图5：具有不同β值的PSwish的可视化。图6：具有不同k值的LeakyReLU的可视化。K鲁棒精度列车测试差异0.5 52.74 48.714.030.3 63.06 49.6213.440.2 69.64 49.3420.32019 - 04 - 2900： 00：00电话：+86-021 - 8888888传标准准确度列车测试差异82.9979.563.4392.00 83.568.4495.37 84.2198.9 83.7315.1799.47 83.0116.46表2：具有不同β值的PSwish的性能较高的β值表示较高的曲率。结果示出为最终检查点，并显示，对于高曲率的激活，标准和强大的泛化差距增加。使用参数化Swish（PSwish）[6]进行分析，定义如下：f（x）=x·sigmoid（βx）当β=1时，先前定义的SiLU函数是PSwish的特殊情况。PSwish从β=0的恒等函数转变为β 的ReLU。Pswish的曲率随着β的增大而增大图5示出了针对不同β值的PSwish激活函数。我们显示了CIFAR-10数据集的结果，用于表2中的训练和测试集的最终检查点。有趣的是，我们观察到标准和稳健的一般化差距都非常依赖于β的选择。鲁棒泛化差距从1. 76比3857，标准泛化差距从1. 82比1613，β=0。5和β=10。我们还观察到，最后检查点的鲁棒测试准确性从四十五二十四到五十对于相同的β值为63对于较大的β，即β→ ∞，PSwish的行为类似于ReLU和标准表3：具有不同斜率值的LeakyReLU激活函数的性能。标准和强大的泛化差距增加的斜坡与更大的近似曲率。5. 平滑度重要吗？Xie等人[72]表明，使用平滑激活，对抗训练可以在Imagenet上实现更好的标准和鲁棒他们认为，使用平滑激活可以改善梯度，这既可以增强攻击者，又可以为权重参数提供更好的梯度更新，从而实现卓越的性能。与此相反，我们表明，广义间隙的关系，激活可以观察到的非光滑激活以及。我们使用如下定义的非平滑LeakyReLU激活函数：如果x≥0，则LeakyReLU（k，x）=xKX如果x0<其中k是可以调整的超参数。LeakyReLU的一阶导数被给出为：dLea k yReLU（k，x）=.1，如果x≥0鲁棒最终测试精度开始下降。结果为dx与我们以前的实验一致，并表明k如果x0<对于具有高曲率的激活，标准和鲁棒的泛化间隙增加进一步使用具有验证集的早期停止检查点，β=10的PSwish将ReLU基线执行0。33%的可靠性和1。24%的标准准确度，强调激活函数的选择可以提高对抗训练模型的标准和稳健然而，对于非平滑激活，激活函数的曲率没有很好地定义。因此，对于LeakyReLU，我们使用斜率差，即1 K作为函数的“近似”曲率。因此，对于k1，近似曲率随着增加而减小。k的值。我们使用与以前实验相同的设置，并显示最终训练和测试的结果321 0123β鲁棒精度列车测试差异0.5 47.00 45.241.761 56.15 48.917.312 69.65 49.620.05483 49.9233.0810 89.2 50.6338.57标准准确度列车测试差异75.3973.571.8285.7980.5594.57 83.3911.1898.82 84.4814.3499.7 83.5716.1316430−0.540.530.520.510.500.490.482 4 6 8 10 12 14宽度因子可以通过最优正则化来减轻这种现象。我们通过对抗训练具有不同宽度因子的宽Resnets来探索具有低曲率的激活是否可以miti- gate双下降我们在图7中显示了ReLU和SiLU激活函数的结果由于训练Wide Resnets的高成本，无法进行其他激活的实验。我们使用SiLU激活函数，因为它在所有考虑的激活中具有最低的曲率。在图7中，我们显示了针对PGD-10对手的ReLU和SiLU激活函数的结果。虽然观察到ReLU激活的双下降现象，但稳健的测试性能仍在继续。图7：泛化曲线显示了双de-气味现象发生在具有ReLU激活的网络中，但不发生在SiLU激活的网络中。我们使用ad- versarially训练的WideResnet模型，模型的复杂性由架构的宽度控制。每个数据点显示最后3个时期的平均值。表 3 中的 CIFAR-10 检查点我们观察到类似于LeakyReLU的平滑激活的行为。对于k=0。5、近似曲率小，鲁棒性和标准推广性都有差距; 03和3。43分别比k = 0小得多。2，其中鲁棒性和标准泛化差距，37。73和16。46是大的。因此，我们假设对于非平滑激活，激活函数的“6. 双下降曲线来自经典机器学习理论的标准偏差-方差权衡未能解释为什么深度网络泛化良好，特别是当它们的参数远远多于它们所训练的样本时[77]。现在的标准做法是使用过参数化模型并允许模型进行更长时间的训练[30]，因为测试时间性能通常会随着模型复杂性的增加而提高，超过数据插值点，这种现象称为双下降[4]。进一步表明，训练时间更长和增加架构大小都可以被视为模型复杂性的增加，并且在两种设置中都观察到了双下降现象[48]。对于l2逆向训练模型，还简要注意到随着模型宽度增加的双重下降泛化现象Rice等人[56]表明鲁棒过拟合与训练时间较长时观察到的双下降现象相矛盾，因为训练时间较长会损害测试时间性能。尽管如此，他们仍然观察到ReLU网络在模型大小方面的双下降现象，如图所示。7.因此，他们认为，训练时间更长和增加模型大小对鲁棒泛化有不同的影响。最近的一项工作[49]表明，双下降phe-用于SiLU激活函数的减小。请注意，宽度因子为4的SiLU与宽度因子为15的ReLU具有相同的性能。尽管如此，具有大宽度因子的ReLU网络实现的最终测试误差相当于具有相同宽度的SiLU网络实现的最低测试误差。这表明低曲率激活可能对具有大宽度的模型没有用。结果还表明，使用具有小曲率的激活可以充当正则化器以减轻双下降现象。7. 结论在这项工作中，我们首先使用理论和经验的方法来显示的激活函数的曲率对鲁棒性的影响我们进一步表明，这种性质的正则化进一步扩展到非光滑激活以及。而Riceet al.我们的研究结果表明，经典的正则化技术无法防止鲁棒的过拟合，我们的研究结果表明，激活函数与低曲率可以在很大程度上减轻。由于鲁棒过拟合在对抗训练中很常见，因此我们在这项工作中揭示的激活函数的特性对于最先进的鲁棒模型可能是有用的。最后，我们的实验还表明，双下降，另一种现象，具有显着的影响鲁棒泛化，可以减轻使用激活低曲率。8. 致谢该项目部分得到NSF CAREER AWARD 1942230、HR00112090132、HR001119S0026、NIST60NANB20D134和ONR GRANT13370299的支持。DARPA 的 Quantifying Ensemble Diversity for RobustMachine Learning（QED for RML）计划和DARPA的GuaranteeingAIRobustnessAgainstDeception（GARD）计划。我们非常感谢我们的同事AbhayYadav、Songwei Ge和Pedro Sandoval对本手稿早期草稿的宝贵投入。测试稳健性误差ReLU丝路16431引用[1] Alexander Levine 0001和Soheil Feizi（de）用于针对补丁攻击的可认证防御的随机平滑。在Hugo Larochelle、Marc’Aurelio Ranzato 、 Raia Hadsell 、 Maria-FlorinaBalcan 和 Hsuan-Tien Lin 编辑的 Advances in NeuralInformation Processing Systems 33：2020年神经信息处理系统年度会议，NeurIPS 2020，2020年12月6日至12日，虚拟，2020年。[2] 杰姆·阿尼尔詹姆斯·卢卡斯罗杰·格罗斯整理李普-希茨函数逼近。国际机器学习会议，第 291-301 页。PMLR，2019年。[3] Anish Athalye，Nicholas Carlini，and David Wagner.模糊的梯度给人一种错误的安全感：规避对对抗性示例的防御。在机器学习国际会议上，第 274-283 页。PMLR，2018。[4] Mikhail Belkin，Daniel Hsu，Siyuan Ma，and SoumikMan-dal.协调现代机器学习实践和经典的偏差方差权衡。Proceedings of the National Academy of Sciences，116（32）：15849[5] Philipp Benz，Chaoning Zhang，Adil Karjauv，and In SoKweon.具有类干扰的通用对抗训练。在2021年IEEE多媒体和博览会国际会议（ICME）上，第1-6页。IEEE，2021。[6] 加勒特·宾汉姆和里斯托·米库莱宁发现参数激活函数。CoRR，abs/2006.03179，2020。[7] 雅各布·巴克曼，奥科·罗伊，科林·拉菲尔，伊恩·古德费尔-洛.温度计编码：一个抵抗敌对例子的好方法。在2018年国际学习代表会议上[8] Rudy Bunel ， Ilker Turkaslan ， Philip H.S. Torr 、Pushmeet Kohli和M.帕万·库马尔分段线性神经网络验证的统一观点。第32届神经信息处理系统集，NIPS'18，第4795-4804页，Red Hook，NY，美国，2018年CurranAssociates Inc.[9] 尼古拉斯·卡利尼和大卫·瓦格纳。对抗性的例子不容易被发现：绕过十种检测方法。在第10届ACM人工智能和安全研讨会的会议记录中，第3-14页[10] N. Carlini和D.瓦格纳。评估神经网络的鲁棒性。2017年IEEE安全与隐私研讨会（SP），第39-57页[11] Tianlong Chen，Sijia Liu，Shiyu Chang，Yu Cheng，Lisa Amini，and Zhangyang Wang.对抗鲁棒性：从自我监督预训练到微调。在IEEE/CVF计算机视觉和模式识别会议论文集，第699-708页[12] 陈天龙、张振宇、刘思佳、常世宇和王张扬。鲁棒过拟合可以通过适当学习的平滑来减轻。2021年，在国际学术会议上发表[13] Jeremy Cohen，Elan Rosenfeld，and Zico Kolter.通过随机平滑验证对抗鲁棒性。国际机器学习会议，第1310-1320页。PMLR，2019年。[14] J. 邓，W。东河，巴西-地索赫尔湖J. Li，K.Li和L.飞飞ImageNet：一个大规模的分层图像数据库。2009年CVPR09中[15] Terrance DeVries和Graham W Taylor。改进的卷积神经网络的正则化。 arXiv 预印本 arXiv ： 1708.04552 ，2017。[16] Guneet S Dhillon，Kamyar Azizzadenesheli，Zachary CLipton ， Jeremy Bernstein ， Jean Kossaifi ， AranKhanna，and Anima Anandkumar.用于鲁棒对抗防御的随机激活修剪。 arXiv 预印本 arXiv ： 1803.01442 ，2018。[17] 鲁迪格·埃勒斯分段线性前馈神经网络的形式化验证。CoRR，abs/1705.01320，2017。[18] Farzan Farnia，Jesse Zhang，and David Tse.通过频谱归一化进行可推广的对抗训练。在2019年国际学习代表会议[19] Reuben Feinman，Ryan R Curtin，Saurabh Shintre，andAn- drew B Gardner.从伪像中检测对抗样本。arXiv预印本arXiv：1703.00410，2017。[20] 马特奥·菲谢蒂和杰森·乔作为0-1混合整数线性规划的深度神经网络：可行性研究。CoRR，abs/1712.06174，2017。[21] Songwei Ge，Vasu Singla，Ronen Basri，and David W.是jacobs。移位不变性可以降低对抗鲁棒性。CoRR，abs/2103.02695，2021。[22] T. Gehr ， M. Mirman ， D. Drachsler-Cohen ， P.Tsankov，S. Chaudhuri和M.维切夫Ai2：具有抽象解释的神经网络的安全性和鲁棒性验证。2018年IEEE安全与隐私研讨会（SP），第3-18页[23] Ian Goodfellow、Jonathon Shlens和Christian Szegedy。解释和利用对抗性的例子。国际学习表征会议，2015年。[24] Henry Gouk ， Eibe Frank ， Bernhard Pfahringer ， andMichael J Cree.通过强制Lipschitz连续性来正则化神经网络机器学习，110（2）：393[25] Sven Gowal、Krishnamurthy Dj Dvijotham、Robert Stan-forth 、 Rudy Bunel 、 Chongli Qin 、 Jonathan Uesato 、Relja Arandjelovic、Timothy Mann和Pushmeet Kohli。可扩展的验证训练可证明强大的图像分类。在IEEE/CVF计算机视觉国际会议论文集，第4842-4851页[26] Sven Gowal、Chongli Qin、Jonathan Uesato、TimothyMann和Pushmeet Kohli。揭示对抗训练对范数有界对抗示例的限制。arXiv预印本arXiv：2010.03593，2020。[27] Chuan Guo ， Mayank Rana ， Moustapha Cisse ， an

下载后可阅读完整内容，剩余1页未读，立即下载