振幅-相位复合：卷积神经网络频域鲁棒性的再思考

3 浏览量更新于2023-10-15 收藏 1.76MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

458振幅-相位复合：卷积神经网络频域鲁棒性的再思考陈光耀1，彭佩曦1，3 *，李马1，3，李佳莉2，3，杜林4，田永红1，3*1北京大学计算机科学与技术系3鹏程实验室2北京航空航天大学虚拟现实技术与系统国家重点实验室4华为人工智能应用研究中心{gy.chen，pxpeng，mali hp，yhtian}@ pku.edu.cn，jiali@buaa.edu.cn，dulin09@huawei.com摘要近年来，卷积神经网络（CNN）的泛化行为通过频率分量分解的解释技术逐渐变得透明。然而，图像的相位谱对于鲁棒视觉系统的重要性仍然被忽视。在本文中，我们注意到，CNN倾向于收敛于局部最优值，这与训练图像的高频分量密切相关，而幅度谱容易受到干扰，如噪声或常见的腐败。相比之下，更多的实证研究发现，人类依赖于更多的相位分量来实现鲁棒的识别。这一观察结果导致CNN在对常见扰动的鲁棒性和分布外检测方面的泛化行为的更多解释，并激发了通过重新组合当前图像的相位谱和distracter图像的振幅谱而也就是说，生成的样本迫使CNN更多地关注来自相位分量的结构化信息，并且保持对幅度的变化的鲁棒性。在多个图像数据集上的实验表明，该方法在多个概括和校准任务上实现了最先进的性能，包括对常见损坏和表面变化的适应性，分布外检测和对抗性攻击。代码发布在github/iCGY 96/APR上。1. 介绍在过去的几年中，深度学习在许多图像识别/分类任务中取得了甚至超过人类水平的表现[15]。然而，神经网络的非直观泛化行为，例如对抗性示例的脆弱性[11]，常见的腐败[20]，对分布外的*通讯作者图1. 更多的实证研究发现，人类依赖于更多的相位分量来实现鲁棒的识别。然而，没有有效训练限制的CNN往往会收敛于与图像幅度谱相关的局部最优值，导致泛化行为与人类的直觉相反。(OOD)[19，22，38，3，2]，仍然在社区困惑。它还导致当前的深度学习模型依赖于训练数据忠实地表示部署期间遇到的数据的能力为了解释神经网络的泛化行为，已经通过不同的模型或算法视角逐步取得了许多理论突破[49，39，41]。一些作品[46，24]从频域中的数据角度研究了卷积神经网络（CNN）的一般化行为，并证明CNN受益于人类不可感知的高频此外，图4中提供了定量研究，以指示CNN的预测对振幅谱的变化更敏感上述现象表明，CNN倾向于收敛于局部最优，这是密切相关的训练图像的高频分量。虽然当测试样本和训练样本来自相同分布时，这是有用的，但由于幅度谱容易受到干扰，如噪声或常见的破坏，CNN的鲁棒性将受到影响。另一方面，早期的经验459研究[32，10，13，28]表明，人类更多地依赖于与相位相关的分量来识别对象。众所周知，人眼比CNN更鲁棒图2中显示了一个可视化的示例，以验证[32]中相位谱的重要性，以解释CNN的通过将一个左轮手枪的幅度谱替换为一个拼图的幅度谱，CNN将融合图像分类为拼图，而人类仍然可以将其识别为左轮手枪。在该示例中，CNN的预测结果几乎完全由图像的幅度谱确定，这对于人类几乎不可感知。另一方面，即使振幅谱被替换，人类也能够正确地识别原始图片中的相同对象。此外，我们发现这种现象不仅存在于训练数据（分布内）中，而且存在于OOD数据中，如图3所示。在这些图像中，在交换幅度谱之后，CNN的预测也用幅度谱的标签进行然而，在转换后的图像中，人仍然可以观察到原始图像的物体结构.受人类强大的泛化能力的启发，我们认为一个强大的为了实现这一目标，提出了一种新的数据增强方法，称为幅度相位重组（APR）。APR的核心是将当前图像的相位谱和干扰子图像的幅度谱重新组合，以生成新的训练样本，其标签被设置为当前图像。也就是说，生成的样本迫使CNN从相位分量而不是幅度捕获更多的结构化信息。具体来说，当前图像的干扰项图像以两种方式出现：通过现有的数据增强方法（例如旋转和随机裁剪）生成的其他图像及其增强，即分别针对成对图像的APR（APR-P）和针对单个图像的APR（APR-S）。在多个推广和校准任务上的广泛实验，包括对常见的破坏和表面变化的适应性，OOD检测和对抗性攻击，表明所提出的APR大大优于基线。同时提供对纹理偏差假设[9]的统一解释以及对常见扰动的鲁棒性和CNN对振幅谱的过度依赖导致的OOD的过度自信的行为也就是说，各种常见的扰动对高频振幅分量的影响很大，而对相位谱相关分量的影响很小。因此，攻击样本可能会混淆CNN，但很容易被人类识别。另一方面，以下的OOD样本-图2.相位谱的重要性的一个例子来解释CNN的反直觉行为。将Revolver的相位谱和Jigsaw Puzzle的振幅谱重组后的图像用CNN识别为Jigsaw Puzzle。但是，人类仍然可以清楚地认出它是一把左轮手枪。10个表现出完全不同的图像结构，但可能在高频振幅分量中共享一些相似性，这使得CNN难以区分。我们的主要贡献总结如下：1）通过一系列的定量和定性分析，我们提出了一个鲁棒的CNN应该对振幅方差具有鲁棒性，并更多地关注与相位谱相关的分量。2）提出了一种新的数据增强方法APR，迫使CNN更多地关注相位谱，并在多个推广和校准任务上实现了最先进的性能，包括对常见的适应性。腐败和表面变化，OOD检测和对抗性攻击，以及3）通过CNN对幅度谱的过度依赖，为对常见扰动的鲁棒性和OOD的过度自信的行为提供了统一的解释。2. 相关工作CNN的基于频率的解释。最近，一些工作提供了新的见解神经网络行为的频域方面。[46]表明高频分量在促进CNN的准确性方面发挥着重要作用，与人类不同。基于这一观察，[46]得出结论，平滑CNN内核有助于强制模型使用低频特征。[12]提出了一种只针对图像中低频分量的对抗性攻击，这表明该模型确实利用低频域中的特征进行预测，而不是只从高频分量中学习。[42]表明，在低频扰动下，最先进的防御几乎与未受保护的模型一样脆弱，这意味着当前的防御技术仅对高频域中的对抗性攻击有效。另一方面，[30]证明CNN可以捕获相位谱的额外隐式特征，这有利于人脸伪造检测。然而，目前还没有对振幅和相位460X.FP一HHHXXXXXXXXXXXXXXXXXA A A P PPAAA a aAPPPP⊗(a) 飞机和青蛙的分布中样本（b）猫和鸟(c)5和6的分布外样本（d）2和4图3. 从分布中CIFAR-10 [26]和OOD SVHN中选择的四对测试样本有助于解释CNN捕获比相位谱更多的幅度谱用于分类：首先，在（a）和（b）中，模型（全卷积网络）正确地预测原始图像（每个面板中的第1列），但是在切换幅度谱（每个面板中的第3列）之后也交换预测，同时人眼仍然可以通过轮廓信息给出正确的类别。其次，模型对（c）和（d）中的OOD样本类似地，在幅度谱的交换之后，还交换具有高置信度的标签CNN的泛化行为的频谱数据增强。数据增强已被广泛用于防止深度神经网络对训练数据的过度拟合[1]，并大大提高了神经网络的泛化能力。CIFAR-10 [26]评估CNN的性能，CNN通过各种类型的幅度和相位谱用反转图像训练对于图像x，其频域Fx由幅度Ax和相位Ax组成。化性能大多数传统的增强方法通过应用变换来生成新数据Px为：Fx=Axei·Px、（1）这取决于数据类型或目标任务[6]。[52]提出了mixup，其在两个输入数据之间进行线性内插，并利用具有相应软标签的混合数据进行训练。然后，CutMix[50]提出了一种基于空间复制和粘贴的图像混合策略。AutoAugment [6]是一种学习增强方法，其中一组增强被调整以优化下游任务的性能。AugMix[20]通过简单地混合随机增强来帮助模型抵御不可预见的损坏然而，许多方法大大降低了非对抗性图像的准确性[34]，或者需要针对不同任务的自适应和复杂参数。3. CNN在频域的秘密3.1. 频域除了图2和图3中的示例之外，这里给出更多定性分析以测量振幅和相位的贡献。进行了几个实验其中表示两个矩阵的元素乘法这里，四种类型的振幅谱x、L、I和H分别与包括x、L、I和 H的四种类型的振幅谱组合。这里，L，I，H和 L， I，H分别表示通过低通l、高通h和带通b滤波器的低频、中频和高频的幅度谱和相位。在Eq.在公式（1）中，如果X的一个元素为零，则X的对应元素将为零，并且相位谱X不能被考虑。为了减轻这种影响，我们将传递函数定义为：z=1， z=0z，否则，请执行以下操作。最后，y、Px、PL、PI和PH与Ax、AL、分别为I和H。为了定量评估，我们通过上述每对扩增的反转图像461·A·PP⟨ ⟩ AA⟨⟩i·Px2图4.我们测试了用振幅和相位谱的各种组合训练的CNN的分类能力。强度和相位谱：arg minl（f（iDFT（Axei·Px）;θ），y），⑵θ角其中iDFT是离散傅里叶逆变换（DFT），f（）表示具有可学习参数θ的CNN模型。图4显示了每对训练的模型的测试精度。很明显，在相应的频率域中的相位和幅度的组合在它们的各种组合中实现了更好的性能，这表明CNN可以从幅度谱和相位谱两者捕获有效的信息。此外，当振幅谱和相位谱分别固定时，按箭头的两个方向，无振幅时的变化范围比无相位时的变化范围大。这表明CNN的收敛性更多地依赖于幅度谱而忽略了相位谱。此外，我们从CIFAR-10中随机选择1000个样本。首先，我们通过高斯噪声生成1000个受损样本，并显示受损样本和原始样本的分布，如图5（a）所示。我们可以观察到两类样本在高频的幅度谱是如此不同，而被破坏的样本只是添加了不可见的噪声。因此，当幅度谱改变时，CNN将做出错误的预测。这也与CNN在[46]中捕获高频信息的结论一致。因此，我们提出一个假设（称为A1），假设：假设1. 没有有效训练限制的CNN倾向于感知更多的幅度谱而不是相位谱。然后，我们可以将CNN的鲁棒性的另一个正式声明公式化为：推论1.假设A1，存在一个样本其中x，y具有振幅Ax和相位Px，模型(a) 损坏样品（b）OOD样品图5.高频振幅谱的T-SNE [45]分布。红色表示CIFAR-10中的原始图像或分布中（ID）样本，灰色表示来自CIFAR-10的损坏样本或来自CIFAR- 100的OOD样本f（）在没有有效训练限制的情况下不能准确地预测x≡iDFT（（x+ε））其中e∈是允许扰动的上界。其次，我们从CIFAR-100中随机选择1000个OOD样本。如图5（b）所示，即使这些样本来自不同的类别，也无法区分分布内和分布外的高频振幅谱。因此，当出现类似的幅度信息时，CNN对某些分布会过于自信因此，我们首先尝试为OOD对常见扰动的鲁棒性和过度自信的行为提供假设2. 对常见扰动的敏感性和OOD的过度自信的行为可能都是由于CNN同时，我们可以将OOD的主要论点扩展为一个新的正式声明：推论2. 在假设A1和A2的情况下，存在分布内样本x1，y和分布外样本 x2，其幅度为 x1，x2，相位为x1，x2，没有有效训练约束的模型将给出x = x的y的高置信度iDFT（Ax1 e）的情况。证明是前面讨论的直接结果，因此省略。推论1已经在先前的工作中被证明[46，39，41]，并且推论2也可以被经验地验证（例如，因此，我们可以安全地说，这两个推论可以作为CNN泛化行为同时，在附录中我们提供了更多的例子来证明.3.2. 相位谱先前的工作[32，10]已经表明，如果仅保留相位谱，则信号的许多重要特征被保留。同时，几幅图像462×个ΣΣΣΣΣΣ×× ×S {}我Xn=1m=1P我 JXJu，vu，vu，vu，vPx（u，v）=arctan（Σu，vxTR+−Σu，vxTuR，v−图6.等式（1）中的（u，v）的四个基于模板的对比度（三）、每个傅立叶系数通过将图像按实部和虚部的符号划分成两对区域来计算。这些符号以频谱相位编码。显着性[13，28]显示了相位谱与人类视觉系统的固定的联系。此外，我们希望探索为什么这个重要的信息的图像保留在相位谱。在这里，我们从基于模板的对比度计算的角度重新解释离散傅立叶变换的概念[28]。给定分辨率为N的灰度图像X，其在（u，v）处的复值傅里叶系数可以计算为：F（u，v）=ΣNΣNx（n，m）·eiθ，板包含在相位谱中。这种基于模板的对比可以帮助解释相位谱的重要性。一旦正确估计了包含更多目标而没有干扰项的模板，该模型就可以高效地定位目标对象[28]。另一方面，相位谱中的这些模板可以帮助恢复原始图像的结构信息，即使没有原始幅度谱，如图3所示。鲁棒性的人类视觉系统也可以依赖于这种可见的结构化信息进行识别。4. 幅相复合受人类强大的泛化能力的启发，我们认为减少对幅度谱的依赖和增强捕获相位谱的能力可以提高CNN的鲁棒性。因此，我们引入了一个非参数的数据增强例程，称为幅度相位重组（APR），构造更有效的训练样本的基础上的单样本或对样本。配对样本的APR（APR-P）。首先，（xi，yi）和（xj，yj）是从我们的训练数据中随机抽取的两个示例。APR的主要原理是在保持相位谱和相应标签不变的情况下，尽可能多地改变幅度谱。因此，APR-P可以定义为：i·PxiAPR（x，x）=i DF T（A e）。（五）=Nn=1Nm=1 x（n，m）·（cosθ+i·sinθ），然后，求出逆训练对样本（APR_P（xi，xi），yi）和（APR_P（x_j，x_i），y_j）注意我们使用la-其中θ=−2π（un+vm）/N。然后，Fx（u，v）的实部和虚部可以重写为：以允许模型在相位谱中找到有效的结构化信息平均值-Rx（u，v）=cosθ≥0cosθ·x（n，m）+cosθ<0cosθ·x（n，m），同时，通过各种频谱变化，模型逐渐忽略了来自感知的信息Ix（u，v）=sinθ≥ 0sinθ·x（n，m）+sinθ< 0sinθ·x（n，m）。振幅谱它可以通过如下方式实现Mixup [14]，它使用单个数据加载器来获得一个minibatch，然后将APR-P应用于原始minibatch通过傅里叶变换的（u，v）中的频率可以是通过四个基于模板的对比解释为计算：TR+（x）= max（cosθ，0），TR−（x）=max（−cosθ，0），和随机混洗后的小批量。单个样本的APR（APR-S）。对于单个训练样本，我们考虑由Kdif组成的集合STI+（x）= max（sin θ，0），T I−（x）=max（−sin θ，0）。随机（随机或确定性）变换，表示为因此，我们可以定义4N基于实部和虚部的符号，为图像x生成N个模板。基于模板的示例如图6所示。更多模板示例见附录。=S1，S2，. . . S K.在这里，我们试图考虑样本（x，y）和其变换后的样本x是具有相同标签的两个不同样本。APR-S工艺可以表示为：同时，图像的相位谱Px（u，v）i·PS（xi）AP RS（S（xi），S~（xi））=iDF T（AS~（x）e），（6）x等于arctan（Ix（u，v）），这可以重新解释其中S~和S是基于不同的如：Rx（u，v）ΣxTI+−ΣxTI−u，v随机种子或序列。此外，这两种幅度-相位重组方式可以组合使用并且产生不同的相位。由方程式首先，我们可以观察到上述四个模板在频谱相位中被编码因此，所有4×N×Ntem-（三））的情况。（四）463不同数据的增益。APR-P和APR-S的几个示例如图7所示。464图7.振幅-相位复合的两种方式：APR-P和APR-S。与通过ARP-P的样本相比，通过APR-S的反演图像与原始图像的差异较小。表1.常见腐蚀和表面变化的适应性试验。以百分比表示的平均分类误差。所有值均为百分比，最佳结果以粗体表示。标准切口Mixup CutMix高级培训APR-P AutoAugment AugMix APR-S ARP-SPAllConvNet30.832.924.631.328.121.529.215.014.811.5CIFAR-10-CDenseNetWideResNet30.726.932.126.824.622.333.527.127.626.220.318.326.623.912.711.212.310.610.39.1ResNeXt27.528.922.629.52718.524.210.911.09.1是说29.030.223.530.327.219.72612.512.210.0AllConvNet56.456.853.456.056.047.555.142.739.835.9CIFAR-100-CDenseNetWideResNet59.353.359.653.555.450.459.252.955.255.149.844.753.949.639.635.938.335.535.832.9ResNeXt53.454.651.454.154.444.251.334.933.731.0是说55.656.152.655.555.246.652.538.336.833.95. 实验数据集。CIFAR-10和CIFAR-100 [26]数据集包含小型32x32 x3彩色自然图像，均包含50，000张训练图像和 10 ， 000 张测试图像。 CIFAR-10 有 10 个类别，CIFAR-100有100个类别。更大更难的ImageNet [7]数据集包含1,000个类，大约120万个大规模彩色图像。为了测量模型对常见破裂和表面变化的弹性，我们评估了CIFAR-10-C、CIFAR-100-C和ImageNet-C数据集上的这些数据集是通过破坏原始的 CIFAR 和ImageNet测试集来构建的。对于每个数据集，总共有15种噪声、模糊、天气和数字腐蚀类型，每种类型出现在5个严重性级别或强度。由于这些数据集用于测量数据偏移下的网络行为，因此这15个损坏不会被引入训练过程。为了测量OOD检测的能力，我们将CIFAR-10视为分布内，将以下数据集视为OOD：SVHN [31]，调整大小的LSUN和ImageNet [29]，CIFAR-100 [26]。5.1. CIFAR-10和CIFAR-100培训设置。对于模型所有网络都使用0.1的初始学习率，每60个epoch衰减一次。所有模型都需要200个epoch来收敛。我们使用Nesterov动量优化随机梯度下降[43]。在任何增强之前，所有输入图像都用“标准”随机左右翻转和裁剪来处理。对于APR-S的数据扩充，我们采用[20]中使用的数据扩充，见附录。对于OOD检测，我们使用ResNet-18 [16]与上述相同的训练策略。数据扩充的设置与上述相同。我们报告了受试者工作特征曲线下面积（AUROC）[19]作为检测评分的无阈值评估指标我们将所有的方法分为两类，一类是在标准增强的基础上增加一个增强（随机左右翻转和裁剪），另一类是465s=1s=1c，s表2.图像分类中区分不同OOD数据的实验最佳结果以粗体表示方法试验依据SVHNLSUNImageNetCIFAR-10−→LSUN（FIX）ImageNet（FIX）CIFAR100是说交叉熵93.088.690.788.387.587.485.888.1带切口的CE [8]95.893.694.590.292.289.086.491.0CE w/ Mixup [14]96.178.180.776.580.776.074.977.8CE，带APR-P95.098.193.795.291.491.188.993.1SupCLR [25]93.897.392.891.491.690.588.692.0犯罪现场调查[44]94.896.596.396.292.192.490.594.0CE，带APR-S95.190.496.194.290.989.186.891.3CE，带APR-SP95.697.797.996.393.792.889.594.7添加多个增广的组合作为[5，20]。常见的腐蚀和表面变化。我们首先评估所有的方法与常见的腐败和表面变化，如噪音，模糊，天气，和digi- tal。与基于对图像的Mixup或CutMix相比，我们的在对图像中具有交换幅度谱的APR-P对于CIFAR-100实现了6%的更低的绝对损坏误差，如表1所示。对于基于多个增强的组合的方法，我们的仅具有交叉熵损失（CE）的单个图像的APR-S表现得比具有简单混合随机增强并基本上使用Jensen-Shannon损失的AugMix更好当结合我们的方法为单一和成对的图像，APR-SP实现了5%的性能提高相比，AugMix在CIFAR-100。除了超越无数的其他数据增强技术，表1还表明，这些收益来自简单的重组，没有一个复杂的混合策略的振幅和相位。关于测试准确度的更多比较和结果见附录。分发外检测。我们将APR与那些增强（Cutout和Mixup）和几种训练方法，交叉熵，监督对比学习（ SupCLR ） [25] 和最先进的方法对比移动实例（CSI）[44]进行了比较。既然我们的目标是为了校准置信度，使用最大softmax概率来检测OOD样本。表2显示结果。首先，在CIFAR-10上，APR-P比Cutout一致地提高2% AU-ROC，同时保持测试准确性。然后，在基于单个图像和成对图像组合APR之后，APR-SP超过CSI并且在几乎所有OOD任务中获得增益。APR推动CNN更加关注表3.ResNet-18与AutoAttack的性能[4]。方法清洁自动攻击[4]linf（=8/255）FSGM [47]FSGM，带切口83.381.343.241.6FSGM，带APR-PFSGM w/ APR-SFSGM w/APR-SP85.383.584.344.145.045.7[47]第10话与FSGM的重新访问对抗性训练方法的基线相比，剪切不能有效地对抗对抗性攻击[47]。APR算法在保证测试精度的前提下，能够有效地抵抗AutoAttack攻击。与APR-P相比，APR-S对单幅图像的自动攻击性能有了更大的提高。此外，这两种策略的组合实现了更好的性能。很明显，APR-SP不仅提高了原始模型在干净图像上的能力，而且还提高了对抗攻击的能力。5.2. ImageNet分类培训设置。ResNet-50 [16]以0.1的初始学习率进行训练，每30个epoch衰减一次。它是优化与随机梯度下降使用动量0。9[33]，并需要100个时代的收敛。所有输入图像都经过标准随机裁剪水平镜像预处理。对于APR-S的数据增强，我们采用[20]中使用的那些，而没有增强，例如对比度，颜色，亮度，锐度和剪切，这可能与ImageNet-C的损坏重叠。在[20]之后，我们利用AlexNet [27]的腐败错误规范化腐败错误的惯例。计算损坏错误（CEc）相位谱，使一些OOD样本，影响当CEc=Σ5时Ec，s/Σ5E AlexNet. 的平均值该方法可以有效地检测CNN对抗性攻击。此外，CNN关注幅度谱的现象导致APR是否可以提高模型的对抗鲁棒性的问题。在这里，我们评估了针对一种对抗性攻击AutoAttack [4]的几种增强。表3显示了通过将不同方法与FSGM的重温对抗训练方法相结合的AutoAttack [4这15个损坏错误被称为平均损坏错误（mCEc）。结果我们的方法APR-SP实现了15%的改善，- ment比基线80。6%mCEc，同时保持测试准确度。其他方法如AutoAugment和Aug- Mix需要更复杂的组合策略，而我们的方法不需要。与此同时，APR改善了腐败-[20]和不确定性的估计，几乎每一个人的腐败和严重程度，而每-466--表4.在ImageNet-C上使用ResNet-50测试各种方法的错误、损坏错误（CE c）和mCE c值。所有值均为百分比，最佳结果以粗体表示。方法测试错误高斯噪声发射脉冲散焦模糊玻璃运动变焦雪天气霜雾明亮对比数字弹性像素JPEG mCE标准23.979808282908480868175657991778080.6补丁统一24.567687074838177807475627784717174.3AutoAugment（AA）22.869687277838081797564567088577172.7随机AA23.670717280868281817772617588737276.1MaxBlur池23.073747674867877777263566886717173.4罪27.269707077847682747569656980647773.3AugMix22.465666770806666757267585879696968.4APR-S24.561646073877281726762567083797170.5APR-P24.464686870896981696955575885667269.3APR-SP24.455615468846880626249535783706965.0[18]第十八话26.349494862746879686464576378507363.1DeepAugment+APR-SP26.444454157706079565650545478477157.5Accc：CIFAR-10 Accc：CIFAR-10-C AUROC：SVHN9590(a) 原始（b）雾（c）标准(d)APR-SP图8.基线的梯度加权类激活映射[40]和针对具有青蛙噪声的图像提出的APR-SP。最好用彩色观看。APR-SP即使在浓雾中也能聚焦目标物体的部分。8580750 0.20.40.60.8 1变焦模糊的性能与大多数方法相当。APR-SP比APR-S和APR-P提高了约5%，并且具有DeepAugment的APR-SP比复制的DeepAugment提高了6%[18]。如图8所示，使用APR-SP训练的CNN即使在大雾中也能够聚焦于目标对象的部分以进行分类。这些结果表明，将APR从CIFAR扩展到ImageNet也导致了鲁棒性和不确定性估计的最新结果。5.3. 按振幅或相位标记？对于我们提出的APR-P，我们利用相位谱对样本的标签。自然地，我们希望探索分别使用标签幅度和相位的影响。在这里，我们在ResNet-18中添加了一个线性分类器层来预测幅度谱的标签。针对由相位谱Pxi和幅度谱Axj组合的样本xj，通过优化以下来训练模型argminλ l（fP（x′;θ），yi）+（1−λ）·l（fA（x′;θ），yj）.（七）θ角然后，最终预测被定义为y'=λfP+（1λ）fA。模型对不同分布的识别能力随λ变化，如图9所示。随着相位预测权值的增加，模型的精度得到了提高，特别是对于常见的腐蚀和表面变化以及OOD检测。同时，模型对OOD样品的检测能力随着相位关注度的增加而增强。这个结果可能会导致-图9.ResNet-18对各种分布的性能，作为幅度和相位谱的不同注意权重。从而证明我们推论的正确性。6. 结论展望本文提出了一系列的定量和定性分析表明，一个强大的CNN应该是鲁棒的幅度方差和更多的关注有关的相位谱的分量。然后，提出了一种新的数据增强方法APR，以迫使CNN更多地关注相位谱，并在多个概括和校准任务上实现最先进的性能。此外，CNN对幅度谱的过度依赖为对抗性攻击和OOD的过度自信行为提供了统一的解释展望未来，在计算机视觉研究的新时代，可以开拓更多关于相位的研究方向。一个可能的方向是探索如何在依赖于相位谱的神经网络中表示部分-整体层次结构[21]另一方面，更多的CNN模型[36，35]或卷积运算来捕获更多的相位信息是值得探索的。致谢。本工作部分得到了中国国家重点&研发计划项目2020AAA0103501的资助，以及中国国家自然科学基金项目 2020AAA0103501 的资助。 61825101 号62088102。467引用[1] 克里斯·M·毕晓普带噪声的训练等价于Tikhonov正则化。神经计算，7（1）：108三个[2] Guangyao Chen ， Peixi Peng ， Xiangqian Wang ， andYonghong Tian.开集识别的对抗互反点学习。arXiv预印本arXiv：2103.00953，2021。一个[3] Guangyao Chen ， Limeng Qiao ， Yemin Shi ， PeixiPeng ， Jia Li ， Tiejun Huang ， Shiliang Pu ， andYonghong Tian.具有可判别倒易点的开集网络学习。欧洲计算机视觉会议论文集，第507-522页。Springer，2020年。一个[4] Francesco Croce等可靠评估的adversarial鲁棒性与不同的参数自由攻击的合奏。在ICML，2020。七个[5] Ekin D Cubuk， Barret Zoph ，Dandelion Mane ，VijayVasude-van，and Quoc V Le.自动扩增：从数据中学习增强策略。在IEEE计算机视觉和模式识别会议论文集，2018年。七个[6] Ekin D Cubuk， Barret Zoph ，Dandelion Mane ，VijayVasude-van，and Quoc V Le.自动扩增：从数据中学习增强策略。在IEEE/CVF计算机视觉和模式识别会议论文集，第113-123页三个[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。六个[8] Terrance DeVries和Graham W Taylor。改进的卷积神经网络的正则化。 arXiv 预印本 arXiv ： 1708.04552 ，2017。七个[9] Robert Geirhos，Patricia Rubisch，Claudio Michaelis，Matthias Bethge ， Felix A Wichmann ， and WielandBrendel. imagenet训练的cnn偏向于纹理;增加形状偏差可以提高准确性和鲁棒性。 arXiv 预印本 arXiv ：1811.12231，2018. 二个[10] Dennis C Ghiglia和Mark D Pritt。二维相位展开：理论、算法和软件，第4卷。Wiley New York，1998. 二、四[11] Ian J Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。在2015年国际学习表征会议一个[12] Chuan Guo，Jared S Frank，and Kilian Q Weinberger.低频对抗干扰。在人工智能的不确定性，第1127-1137页。PMLR，2020年。二个[13] Chenlei Guo，Qi Ma，and Liming Zhang.基于四元数傅立叶变换相位谱的时空显著性检测。2008年IEEE计算机视觉和模式识别会议，第1IEEE，2008年。二、五[14] Hongyu Guo，Yongyi Mao，and Richong Zhang.混合为局部线性流形外正则化。在AAAI人工智能会议论文集，第33卷，第3714-3722页五、七[15] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.深入研究整流器：超越人类水平的图像分类性能。InProceedings of theIEEE计算机视觉国际会议，第1026-1034页，2015年。一个[16] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。六、七[17] Dan Hendrycks和Thomas Dietterich基准神经网络的鲁棒性常见的腐败和扰动。 arXiv 预印本 arXiv ：1903.12261，2019。六个[18] Dan Hendrycks等人鲁棒性的许多方面：非分布泛化的批判性分析。arXiv预印本arXiv：2006.16241，2020。八个[19] 丹·亨德里克斯和凯文·金佩尔。用于检测神经网络中错误分类和分布外示例的基线。在2017年学习代表国际会议论文集。1、6[20] Dan Hendrycks 、 Norman Mu 、 Ekin Dogus Cubuk 、Barret Zoph、Justin Gilmer和Balaji Lakshminarayanan。Aug- mix：一种简单的数据处理方法，以提高鲁棒性和不确定性。在2019年国际学习代表会议上。一、三、六、七[21] 杰弗里·辛顿如何在神经网络中表示部分-整体层次结构arXiv预印本arXiv：2102.12627，2021。八个[22] Yen-Chang Hsu ， Yilin Shen ， Hongxia Jin ， and ZsoltKira.广义odin：从分布外数据检测分布外图像而无需学习。在IEEE计算机视觉和模式识别会议论文集，第10951-10960页，2020年。一个[23] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，andKilian Q Weinberger.密集连接的卷积网络。在IEEE计算机视觉和模式识别会议论文集，第4700-4708页，2017年。六个[24] Andrew Ilyas 、 Shibani Santurkar 、 Logan Engstrom 、Brandon Tran 和 Aleksander Madry 。对抗性示例不是bug，而是特性。神经信息处理系统，32，2019。一个[25] Prannay Khosla ， Piotr Teterwak ， Chen Wang ， AaronSarna ， YonglongTian ， PhillipIsola ， AaronMaschinot，Ce Liu，and Dilip Krishnan.监督对比学习。神经信息处理系统的进展，33，2020。7[26] Alex Krizhevsky，Geoffrey Hinton，等.从微小的图像中学习多层特征。2009. 三、六[27] Alex Krizhevsky，Ilya Sutskever，and Geoffrey E Hinton.使用深度卷积神经网络的图像网分类。神经信息处理系统进展，25：1097-1105，2012。七个[28] Jia Li，Ling-Yu Duan，Xiaowu Chen，Tiejun Huang，Yonghong Tian.在频域中寻找图像显著性的秘密。IEEETransactionsonPatternAnalysisandMachineIntelligence，37（12）：2428-2440，2015。二、五[29] Shiyu Liang，Yixuan Li，and R Srikant.提高神经网络中分布外图像检测的可靠性。在2018年的学习代表国际会议上。六个[30] Honggu Liu ， Xiaodan Li ， Wenbo Zhou ， YuefengChen ， Yuan He ， Hui Xue ， Weiming Zhang ， andNenghai Yu.空间相位浅层学习：重新思考人脸伪造检测468频域在IEEE/CVF计算机视觉和模式识别会议论文集，2021年。2[31] Yuval Netzer ， Tao Wang ， Adam Coat

下载后可阅读完整内容，剩余1页未读，立即下载