深度学习中卷积神经网络核大小对谱泄漏的影响

87 浏览量更新于2023-10-13 收藏 1.09MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5138××谱泄漏与CNN核大小的再思考Nergis Tomen，Jan C.荷兰代尔夫特理工大学van Gemert计算机视觉{n.tomen，j.c.vangemert} @ tudelft.nl摘要示例Gabor滤波器学习CNN滤波器CNN中的卷积层实现了将输入分解为不同频带的线性滤波器。然而，大多数现代架构在优化关于卷积核的大小和形状的模型选择时忽略了滤波器设计的标准在这项工作中，我们考虑了在CNN的背景下，在滤波操作中由窗口伪影引起的频谱泄漏的众所周知的问题。我们表明，CNN内核的小尺寸使它们容易受到频谱泄漏，这可能会导致性能下降的文物。为了解决这个问题，我们建议使用更大的内核大小严重截断泄漏（sinc伪影）可忽略的截断可忽略的泄漏学习过滤器（标准）具有伪影窗口过滤器（我们的）可忽略的伪影以及汉明窗函数，以减轻CNN体系结构中的泄漏。我们在多个基准数据集上证明了改进的分类准确性，包括 Fashion-MNIST ， CIFAR-10 ， CIFAR-100 和ImageNet，只需在卷积层中使用标准窗口函数。最后，我们表明，CNN采用汉明窗口显示增加了对各种对抗性攻击的鲁棒性我们的代码可在网上1.1. 介绍深度图像识别网络中的基本组件是非线性地堆叠学习的、可共享的线性映射的能力。典型的例子是CNN中的线性卷积运算符[15，24，47]，而在最近的视觉Transformer模型中，查询，键和值是作用于像素嵌入的令牌共享线性映射[6，8]。在视觉域中通常采取滤波器形式的这些线性映射允许图像特征学习。这种可学习、分层、可共享的特征检测器是深度学习取得巨大成功的基础[1，5，26]，更好地理解这些过滤器可能会广泛影响整个领域。图像滤波器，例如局部定向边缘检测器，提供了输入图像的高度可重复使用的分解[7，34，46]，并且是早期生物视觉的精确模型[20]。从一个深度的、层次化的特征学习1https://github.com/ntomen/Windowed-Convolutions-for-CNNs图1.当滤波器在空间域中的边界处不逐渐变细时，加窗伪影导致频率域中的频谱泄漏。顶行示出了空间域中的示例滤波器，而底行是它们对应的频域。左：具有严重失真的阳离子（核大小为7 × 7）由于sinc伪像而导致其频率响应相同的过滤器与可忽略的trun-阳离子（内核大小49 - 49）是一个良好的质量带通滤波器。右图：在CIFAR-10上训练的标准7 x7 CNN内核很难学习高质量的带通滤波器，因为使用的是小内核通常导致严重的截断。我们建议使用标准的汉明窗口在空间域中逐渐减少内核，这使得高质量的带通频率响应成为可能。因此，有趣的是询问如何专门的可重复使用的过滤器，并探索它们的响应选择性。特别地，在这里，我们研究了深度网络中学习滤波器的频率选择性的作用为了研究频率选择性，我们在CNN的上下文中考虑了频谱泄漏-这是通用滤波操作中众所周知的[13，35，39]伪影CNN的构建块，卷积运算符，可以被认为是一个线性滤波器，由于现代CNN中采用的小内核大小，它容易受到频谱泄漏的影响。虽然这是数字信号[35]和图像处理[11，19]中的一个经过充分研究的概念，但我们观察到，对深度网络中频谱泄漏的更广泛理解在很大程度上被忽视了。频谱泄漏，在广义上的术语，是当一个操作的信号引入不必要的频率频域空间域5139组件到该操作的结果。在实践中，当滤波器由于加窗伪影而使信号的频率分量在其预期通带之外通过时，通常使用术语泄漏对于通过离散卷积或互相关运算器实现的线性滤波器，具有有限大小的内核可以被解释为无限理想滤波器的截断版本。离散核的有限大小（在该离散核内，滤波器假设非零值）表示无限核和空间域中的矩形函数的乘法，其转换为与频域中的sinc函数的卷积[39]。当二维带通滤波器（如Gabor）被严重截断时，矩形函数会以sinc函数的“波纹”形式向频率响应引入波形伪影（图2）。1，左）。在这里，我们探讨了泄漏伪影对CNN图像分类性能的影响。我们表明，由于典型的小内核大小的选择，CNN几乎没有自由来避免矩形截断函数，这使得它们容易受到频谱泄漏的影响（图2）。1，右）。我们调查的基准分类任务的泄漏文物的影响，并证明，简单地使用一个标准的窗口函数，减少泄漏，可以提高分类精度。此外，我们还证明了加窗CNN对某些类型的对抗性示例更具鲁棒性。我们的贡献可概括为：• 我们研究了CNN中频谱泄漏的影响虽然频谱泄漏是经典信号处理中的基本概念，但其对CNN性能的影响之前尚未明确探索。• 我们采用了良好滤波器设计的原则，这些原则在CNN模型中很大程度上被忽略了，建议使用更大的内核和标准的汉明窗口函数，该函数在内核边界处逐渐减小，以减轻频谱泄漏。• 我们展示了在基准数据集（包括Fashion-MNIST，CIFAR-10，CIFAR-100和ImageNet）中通过简单使用标准窗口函数对分类准确性的改进。• 我们表明，加窗CNN对某些对抗性攻击（包括DeepFool和空间变换攻击）显示出更强的鲁棒性。2. 相关工作2.1. 信号处理在具有非周期性边界条件的有限窗口内观察到的信号这种截断将旁瓣或“纹波”引入传输中的信噪比[35]。通常被称为频谱泄漏，这种窗口伪影与数字图像处理中的吉布斯现象[13]或振铃伪影[11]密切相关。为了对抗泄漏的不良影响，窗函数通常用于许多应用中，包括通过短时傅立叶变换的频谱分析[39]。2维窗函数的使用也是数字[19]和生物医学[41]图像处理中光谱分解的常见场所。窗函数也是滤波器设计的一个组成部分，在时间[39]和图像域[3]中。在这项工作中，我们考虑CNN架构中窗口函数的基本缺乏，并调查泄漏伪影是否可能导致不利影响。我们建议使用一个汉明窗口的基础上，其合理的衰减旁瓣，同时保持一个相对较窄的主瓣。2.2. CNN的信号处理优势结合信号处理知识为深度学习带来了巨大的好处。将卷积与深度学习相结合产生了CNN [25]，其重要性难以夸大。卷积定理允许有效的CNN训练[30]。散射变换[4]及其变体[36，37，45]允许编码域知识。基于尺度空间理论[18，43]的结构化滤波器带来了数据效率。CNN中的抗锯齿[57]提高了鲁棒性和准确性。减少CNN中的边界效应[21]可以提高翻译等方差和数据效率。在本文中，我们在这些成功的基础上，首次研究了CNN中的频谱泄漏，减少频谱泄漏可以提高分类准确性并提高鲁棒性。2.3. CNN中的核大小和形状在标准卷积层中，使用小的内核大小降低了计算复杂度，并且根据经验提高了准确性，因此随着时间的推移，在CNN中采用了越来越小的内核大小[15，24，47，49，50，56]。一个潜在的问题与较大的内核大小可能是过度参数化，我们的窗口方法功能作为一种形式的正则化，有效地约束参数空间。与深度学习中常见的正则化方法不同，例如权重衰减[14]，dropout[48]，早期停止[32]和数据增强[44]，我们采用的汉明窗口代表了一种空间结构良好的正则化形式，它鼓励内核形状的中心偏差事实上，我们表明，我们的方法是不是一个替代其他类型的正则化和协同以及与重量衰减和数据增强。类似地，在CNN滤波器中强制执行中心偏差符合图像呈现分层局部问题的想法[7，34，46]，最好通过局部[28]，深度，分层来解决。5140×∈ΣΣ∞∞∞U[xi，yj]=∞CIFAR-10体系结构7×7转换，步幅= 2，h输出= h1BatchNormkb × kbconv，+stride =1，ReLUh输出= h2平均BatchNorm合并正+ +ReLUfc阻滞重复M-1次输入图像（H × W ×hin）cal learning [1，5，26].然而，与以前的工作不同，我们建议使用小内核可能是不够的，没有明确的正则化内核边界。最后，其他工作已经解决了CNN中的结构化内核形状，使用基于小波[4]，Gabor滤波器[29]，高斯导数[18]和圆谐波[54]的滤波器组。在这里，我们明确地集中在窗口函数的截断属性，同时以常规方式学习像素权重。这类似于模糊CNN滤波器的方法[43]，然而，在我们的方法中，我们没有模糊滤波器或特征图[57]。相反，我们在空间域中执行一个简单的乘法，与以前的工作不同。2.4. 对抗性攻击深度模型学习的特征可能不稳健，这对AI安全性有影响[2，12]。CNN中的一个重要观察结果是，具有微小幅度或人类无法感知的扰动的对抗图像[31，51，10，42]可能导致高置信度的错误分类攻击可以根据目标网络的激活和梯度信息生成（白盒攻击）[12]。然而，许多对抗性示例在模型之间具有高度可转移性[27]，并且无需访问模型参数（黑盒攻击），可以使用替代模型[38]甚至简单的空间变换[9]来生成对抗性图像。对抗性示例可以追溯到数据分布中固有的脆弱特征，并且具有高度的类特定性[16]。这意味着，分类模型对非常小的幅度特征的依赖可能会提高性能，导致鲁棒性-准确性权衡[52]。类似地，泄漏伪影的幅度通常较小，但可能存在于具有非锥形滤波器的标准CNN中的每个特征图中。在这里，我们investi门是否简单地使用锥形内核可以减少过滤文物，并提供准确性和鲁棒性的好处超过基线模型。3. Hamming窗中的离散二维卷积运算CNN可以描述为输入通道i的权重张量（k × k × hout）汉明窗K×KKh输K卷积核输入通道i*输入通道i的卷积图2.使用汉明窗口使卷积核逐渐变细。二维卷积层中的典型权重张量的大小为（k × k × hin × hout）。这里我们展示一个单一的输入通道i，其与h个不同的k×k核卷积，其通过将权重张量的每个k×k切片与k ×k汉明窗相乘来生成图3.用于CIFAR-10、CIFAR-100、Fashion-MNIST和MNIST实验的简单架构。我们通过重复卷积块（蓝色）来改变网络的深度（卷积层的数量M）。第一层通过具有7 × 7内核的跨步卷积对输入进行下采样，类似于ResNet架构，而对于所有其他卷积层，内核大小为kb我们还强加了一个渠道瓶颈与第一层具有H1个输出声道，而随后的层采用H2>H1个输出声道。并且该公式可用于描述理想的无限脉冲响应（IIR）滤波器。在实践中，为了获得有限大小的核，换句话说，对于有限脉冲响应（FIR）滤波器设计[39]，有必要选择适当的风函数U[xi，yj]，其中i，jZ，其中l限制其中等式中的和的区间。2不是零。对于CNN，该窗口函数是矩形函数，相当于简单的截断。形式上，矩形窗口函数.1、如果1≤i，j≤kkk0，其他（f*g）[xn，ym]=g[xi，yj]·f[xn−i，ym−j]（一）i=1j =1乘以理想的，无限的核g′在方程。2作为（f*g）[xn，ym]=其中f[xi，yj]是（填充的）输入图像或特征图并且g[xi，yj]是k×k核。从离散信号处理器-Σ Σg′[x，y]U[x，y]f[x，y]（4）从处理的角度来看，可以经由卷积来实现线性滤波器。非周期离散卷积[35]是-Iji=−∞j=−∞ijn−im−j信号f和无限核g′之间的关系由下式给出（f*g′）[xn，ym]：=ΣΣg′[xi，yj]f[xn−i，ym−j]（2）i=−∞j=−∞简化为等式中的CNN公式1.一、通过convo-解定理，g′与矩形函数空间域中的U对应于对频率进行卷积在频域中具有sinc函数的g’的响应（三）5141NΣ×××因此，经由简单截断的加窗将潜在的不想要的频率分量引入到有限核g[x，y]的频率响应中，如图2所示。1.一、作为简单截断的替代方案，我们建议重新在CNN的卷积运算中通过标准汉明窗口[13]减少不需要的频率分量一维汉明窗是广义余弦窗的特殊情况，定义为U[n]= α −（1 − α）·cos。 2πnΣ，0 ≤ n ≤ N（五）α=25/46[13，39]，窗口大小为N个离散样本。我们定义的2-D汉明窗口作为两个1-D汉明窗口的外积。汉明窗口可以在标准体系结构中实现，只需将每个二维k k内核的卷积层与k k汉明窗口函数（图1）。2）的情况。汉明窗可以被解释为正则化的一种形式。与窗函数相乘减少了到核边界的梯度流或有效学习率，这保持边界权重接近于零并且有效地缩小了参数空间。4. 实验4.1. CNN滤波器会遭受频谱泄漏吗？我们设计了一个简单的，完全受控的实验来测试在监督设置中训练的单个卷积层中的内核是否显示频谱泄漏。为了解决这个问题，我们迫使网络在回归任务中学习高质量的带通滤波器，以预测输入图像的FFT我们创建了一个合成数据集，其中输入图像S（x，y）是通过2-D正弦波的叠加随机生成的。每个输入图像3S（x，y）= sin（2πx′iωi+πi），（6）i=1与x′i=xcos （ θi ） +ysin （ θi ）（7）是具有空间频率的三个二维正弦波之和ωi从[0，0. 5ωs），其中0. 5ωs是奈奎斯特频率每个正弦波的方向θi和相位θi也分别在间隔[0，π）和[0，2π）中均匀采样每个目标（地面实况）矢量是对应的输入图像的平坦化的2-D FFT幅度输入图像的大小为32 × 32像素，因此目标值是长度为1，024的向量。包括负频率，网络需要预测大值在6个不同的频率位置为每个输入图像，如图所示。4.第一章我们评估CNN是否可以学习带通滤波器来逼近离散傅里叶变换，并使用具有1，024个输出通道的单个卷积层，然后使用预测输入图像标准模型窗口化模型目标图4.学习用单个卷积层预测输入图像的FFT幅度两个示例合成输入图像的网络预测，随机生成为三个2-D正弦波的总和目标向量是输入图像的FFT幅度，包括负频率。我们发现，使用汉明窗口的模型减轻泄漏文物。1400120010008000 250050007500 10000培训样本图5.窗口模型实现了更好的回归perfor-曼斯在一个独立的验证集1000图像。结果在随机模型初始化的5次运行中平均（标准偏差误差条太小而看不见）。ReLU和全局平均池化。我们测试两个CNN变体：一个网络具有汉明窗口，一个网络没有汉明窗口（基线）。为了保持两个网络之间频率响应的中心瓣大小相似，我们对基线网络使用k=7的卷积核大小，对具有汉明窗口的网络使用k=11的卷积我们使用均方误差（MSE）和ADAM [22]优化器在10，000张训练图像上训练这两个网络，并在训练期间报告了1，000张图像的独立验证集的性能。结果见图。5表明，较长的训练允许加窗网络在验证集上获得较低的回归误差。这部分是由于通过使用更大的内核尺寸而增加了加窗网络的频率分辨率，并且部分是由于伪影减少。通过可视化图1中训练好的网络的预测，在图4中，我们看到由基线网络学习的具有标准卷积的带通滤波器确实遭受泄漏伪影。相比之下，加窗模型能够抑制充分远离目标输入频率的响应这表明，标准CNN容易受到频谱泄漏的影响，并且在没有明确的reg.js的情况下，将不容易学习在边界处逐渐减少的滤波器。标准卷积汉明窗输入1输入2MSE损失（确认）5142基线，h2= 256汉明，h 2= 256基线，h 2= 64汉明，h 2=64基线，无ds汉明，不要ds基线，MaxPool2Hamming，MaxPool2基线，重量衰减汉明，重量衰减基线，增强。汉明，加强。正交性偏差×××第一层窗口化（kb= 3）90858075第一层窗口化（kb= 7）所有层窗口化（kb= 7）学习核702L3L4L 5L6L2L3L4L 5L6L2L3L4L 5L 6L改变瓶颈大小90改变下采样（ds）正则化（b）第（1）款0.012850.010800.00875702L3L4L 5L6L2L3L4L 5L6L2L 3L 4L 5L 6L0.0060.0040.0020.000网络深度网络深度网络深度褶积层深度(a)（c）第（1）款图6. (a)CIFAR-10验证准确度作为不同网络深度的函数（M=2. . . 6个卷积层），在使用汉明窗口（红色）和具有标准卷积层（蓝色）的基线的模型中。线图描绘了5次运行的平均值，误差条表示标准偏差。我们发现，对于我们尝试的所有架构变体（仅在第一层上使用汉明窗口，在所有层上使用汉明窗口，不同的通道宽度，不同的下采样和正则化方法），使用汉明窗口的模型在深度超过2层的(b)在kb=7的网络变体中训练之后的示例内核，其中汉明窗口被应用于所有层。（c）对于在ImageNet上训练的ResNet18模型，我们发现与基线相比，Hamming模型的每个卷积层与行正交卷积[53]的偏差最低即使当泄漏伪影直接导致损失时，也可以避免偏振化。我们发现，一个标准的汉明窗口可以用来规范的内核权重和打击泄漏文物。然而，从这个玩具实验中还不清楚具有大量非线性的更深层网络是否可以学习抑制性能降低的伪影。因此，我们接下来研究了在更深层次网络中的窗口效应。4.2. 什么时候频谱泄漏会损害分类？我们广泛评估了CIFAR-10和CIFAR-100，其中模型变化基于图1。3 .第三章。CIFAR-10。对于所有实验，我们使用交叉熵损失和SGD训练50个epoch，小批量大小为32，动量为0.9。初始学习率为0.01，并在时期25和40衰减0.1倍我们改变网络的宽度和深度，我们评估从2层深到6层深。除非另有说明，卷积层中的输出通道数为h1=32对于原始网络，h2=128，h1=64，对于“宽”网络，h2=256加窗网络和基线网络被相同地训练，并重复5次。随机种子第一层。较早的层可以为较深层提供足够强大和可共享的特征因此，我们仅在第一卷积层中评估汉明窗口我们测试的网络中，深层有一个ker-nel的大小为3 3（kb=3）和7 7（kb=7），并发现加窗模型的精度始终高于基线。这对于原始模型和宽模型都是正确的（图1）。6a，顶行）。请注意，性能提升相对较小，这是由第一卷积层中的汉明窗口引起的，而其余的架构和超参数是相同的。所有层。接下来，我们测试是否减轻更深层的频谱泄漏。由于窗口非常小的内核是没有意义的，并且我们希望保持基线和窗口网络中的参数数量相同，因此我们使用7的内核大小 7（kb=7）。不-特别地，我们发现在所有情况下使用汉明窗卷积层显著提高了CIFAR-10的验证准确性，尤其是在更深的网络中（图11）。6a，顶行，右）。为了说明所学习的权重，来自经训练的网络的一些示例内核在图1中示出。6b.功能共享。我们假设无伪影带通滤波器提供更好的可共享表示。因此，迫使更强的特征共享的信道方面的网络瓶颈可能影响性能。为了测试这一点，我们改变了原始网络中的瓶颈大小（h1= 32）通过改变更深处的输出通道的数量将层中的每一个层调整为h2=64和h2=256，同时仅在第一层中使用汉明窗。有趣的是，我们发现，使用更大或更小的瓶颈大小似乎并不影响精度增加所提供的窗口CON-宽基线汉明，宽基线汉明宽基线汉明，边路基线汉明宽基线汉明，边路基线汉明ResNet18 3x3ResNet18 7x7ResNet18汉明验证准确度[%]验证准确度[%]层2层1汉明基线汉明基线5143××××××××85.082.580.077.575.0CIFAR-10357911 13内核大小fashion-MNISTCIFAR-100757065606L 8L 10L12L网络深度（一）MNISTCIFAR-100，重量衰减757065606L 8L 10L 12L网络深度子采样MNISTTop-1604020604020ImageNetTop-1差异864208642093.593.092.592.091.5基线，第一层汉明，第一层基线，所有层汉明，所有层3L 4L 5L6L网络深度99.699.599.499.3基线，第一层汉明，第一层基线，所有层汉明，所有层3L 4L 5L6L网络深度（b）第（1）款99.499.299.098.898.698.4基线，第一层汉明，第一层基线，所有层汉明，所有层3L 4L 5L6L网络深度806040200 20 40 60 80时代（c）第（1）款864200 20 40 60 80时代图7.（a）左：CIFAR-10验证准确度随着基线模型的核大小的增加而单调下降，而较大的核大小则9 9内核大小最大化具有汉明窗口的模型的性能。中间和右边：在CIFAR-100数据集上，具有7 × 7内核（红色）的“汉明”模型优于具有7 × 7内核（蓝色）和3 × 3内核（青色）的基线网络。当网络通过权重衰减进行正则化时，性能提升更加明显。(See权重衰减扫描的补充C。）(b)左和中：Fashion-MNIST和MNIST验证准确度随网络深度变化的函数。右图：我们发现，当通过对输入图像进行二次采样来增加高频分量的幅度时，窗口化的好处更加明显。(c)左图：在整个训练过程中，具有汉明窗口的ResNet架构的ImageNet验证准确率高于基线ResNet模型右图：训练期间Hamming和基线ResNet模型之间ImageNet验证准确性的差异（另见附录D中的培训和验证损失。）演化（Fig.6a，底行，左）。别名。已知CNN中的下采样层会引入性能降低的混叠伪影[57]。我们调查是否汉明窗口也可能间接抑制任务无关，混叠的频率成分。因此，我们在没有下采样层的情况下训练网络，并用标准卷积（步幅=1）替换步幅卷积，同时仅对第一层进行窗口化。作为另一个对照实验，我们还训练了通过具有2 - 2窗口的最大池化层而不是跨越卷积执行下采样的网络。我们发现，在这两种情况下，使用汉明窗口仍然可以提高CIFAR-10验证的准确性（图1）。图6A，底行，中间），这表明由加窗卷积提供的性能提高与混叠和下采样方法的选择无关。正规化。我们的窗口正则化了接近边界的内核权重（图1）。（见第6段b）。我们比较这种正则化与其他常见的方法，即重量衰减和数据增强。我们训练网络的权重衰减值为0.001，我们独立地训练网络的随机平移和水平翻转增强。我们发现，在显式正则化的网络中，不仅我们的窗口的好处没有消失，而且准确性的提升实际上更大，特别是对于更深的网络。6a，底行，右）。最优核大小。标准卷积层典型地采用非常小（3 ×3）的内核大小。虽然我们只使用了一个内核大小为7 - 7到目前为止，我们提出的方法，它是不清楚的先验什么内核大小将是最佳的汉明窗口。为了根据经验测试这一点，我们改变了M=6层网络的所有层中的内核大小，有或没有汉明窗口。我们发现，虽然分类性能随着基线网络的内核大小超过3 3而单调下降，但存在一个更大的最佳内核大小，它可以最大限度地提高使用汉明窗口的网络的性能（图1）。7a，左）。事实上，我们发现，与k=3的最佳基线模型相比，具有内核大小k=7和k=9的窗口网络提供了显着的准确性改进（标准差之外）。我们还用Hann和Blackman窗口（未示出）进行了实验，发现与Hamming窗口没有差异CIFAR-100。对于CIFAR-100 [23]实验，我们采用了h1=128和h2=256的更宽模型，以及多达12层的更深模型，对于“汉明”模型，我们在所有层中使用加窗卷积。我们对所有模型进行了150个epoch的训练，初始学习率为0.01，我们还采用标准的数据增强（水平翻转和随机的翻译）。除此之外，超参数与CIFAR-10实验中的相同。作为附加基线汉明基线，7x7汉明基线，3x3基线，7x7汉明基线，3x3基线汉明基线汉明基线汉明验证准确度[%]验证准确度[%]验证准确度[%] ResNet34ResNet50ResNet185144××.×××KK控制，我们运行基线与7 7内核大小（相同数量的参数作为我们发现，窗口网络的表现始终优于两个基线（图2）。7a，中间）。由汉明窗提供的准确性增强在权重衰减为0.001时更为明显（图1）。7 a，右）。4.3. 频率有限的数据集自然图像可能包含所有频带中的类别特定信息，这意味着不同频率分量之间的频谱泄漏可能会阻碍类别特定响应的区分。我们假设，对于不太自然的图像，其中并非所有频率分量都在训练集中得到很好的表示，获胜的影响将不那么突出。为了测试这一点，我们评估了Fashion-MNIST [55]和MNIST [25]数据集的分类性能。本节中的训练参数与CIFAR-10实验相同。我们训练两种类型的模型：一个仅在第一层中具有与汉明窗的卷积，并且kb=3，而一个在所有层中具有汉明窗，其中kb= 7。对于Fashion-MNIST数据集，我们发现使用或者在所有较深层中k = 7。对于加窗网络，我们用k = 7的汉明加窗卷积替换所有卷积。我们发现当实施更好的频率选择性时ImageNet验证准确性在整个训练过程中高于基线（图1）。7c）。这表明使用标准窗口函数作为归纳先验有助于网络尽早解决更好地泛化的解决方案。总的来说，我们发现用汉明窗口层替换卷积层可以在ImageNet基准测试中提供准确性改进（图2）。8，表1）。正交性频谱泄漏可能使CNN无法学习具有非重叠频率响应的滤波器，从而导致冗余表示。与我们的窗口层类似，冗余减少和性能提高也可以通过正交卷积来实现[53]。因此，我们分析了汉明窗口对ResNet18模型学习的权重正交性的影响。行正交卷积可以表示为输入 x∈RCHW 与双块 Toeplitz 矩阵 K∈R （ MH′W′ ） ×（CHW）的矩阵乘法y=Kx，其正交条件为1、如果i=j的汉明窗口持续提高分类性能（图。7 b，左），然而，价值的增加-∠ Ki，·，Kj，·∠=（八）0，否则与CIFAR-10和CIFAR-100数据集中发现的更自然的图像相比，数据精度更小。对于MNIST数据集，我们没有观察到大多数网络的“汉明”模型的性能增加，并且对于更深的网络只有适度的性能增加（图2）。7b，中间）。我们将MNIST数据集中窗口卷积的益处的缺乏归因于在某种程度上缺乏高频分量，由此低通和带通滤波器中的泄漏不能污染高频信息。为了验证这一点，我们对28个28输入接口MNIST数据集中的年龄，通过双线性插值，向下14 14图片二次采样具有增加高频分量的相对幅度的效果，并且我们发现汉明窗口在二次采样的MNIST中提供了显着的准确性改进（图2）。7 b，右）。特别是，我们发现两个4.4. ImageNet我们在Im-ageNet [40]数据集上训练ResNet [15]和VGG [47]模型90个时期，初始学习率为0.1，在时期30和60衰减0.1使用SGD进行优化，动量为0.9，重量衰减为10−4。输入图像随机调整大小和裁剪为224 ×224像素和水平翻转。基线网络是具有批归一化[17]和内核大小k=3或k=7的VGG架构，以及标准ResNet架构[15]，其中k=7在第一层中，k= 3其中C和M表示输入和输出通道，H和W（H’和W’）表示输入x（输出y）的空间维度，并且i和j是的行索引。对于在ImageNet上训练的ResNet18模型，我们计算成对点Eq.中的产品8之间的每一行的每一层，并提出其平均偏离正交条件图。6 c.我们发现当使用Hamming窗时卷积算子偏离正交性最小我们认为，强制正交性可能是一个解释的性能提高显示的windowed卷积。(See补充不同型号的进一步分析。）4.5. 对抗性攻击我们测试了在CIFAR-10数据集上训练的基线和汉明模型（M=6层）对DeepFool [31]（白盒）和空间变换[9]（黑盒）攻击的鲁棒性。DeepFool攻击是一种迭代攻击，旨在最小化扰动的范数，同时快速生成示例，我们认为这是一种有效的方法。类似地，空间变换提供了真实的黑盒设置。我们使用对抗鲁棒性算法生成攻击[33]。对于DeepFool at- tacks，我们使用100次最大迭代，并且对于空间变换，我们使用如表2b中给出的不同的最大平移和旋转值。我们比较了基线和汉明模型的验证精度，具有相同数量的参数对不利扰动的CIFAR-10验证集。对于深-5145汉明基线3x3基线7x7汉明基线3x3基线7x7××××O××ODeepFool-验证准确度（%）7674727023.20± 0.2932.64± 0.399392汉明-清洁85.77±0.1686.38± 0.1286.59± 0.1991（a）90图8.基线ResNet和VGG模型及其加窗模型的ImageNet验证准确性，其中所有内核都被7×7Hamming加窗内核替换。基线汉明12.5 22.544.59± 3.12 38.74± 1.3753.03±1.9152.22± 1.64基线汉明25.0 22.531.61± 2.87 27.26± 1.0541.44±2.8738.67± 1.46ResNet18 + Hamming7表1.图中的ImageNet验证精度8.傻瓜攻击，我们发现，汉明模型与7× 7内核大小提供了最好的鲁棒性方面的验证精度的下降扰动（表2a）。与在5个内核中，汉明模型在深度傻瓜攻击下比基线表现更差，即使汉明模型在干净样本上的基本准确度更高然而，对于较大的内核大小，汉明模型的鲁棒性明显更好。对于空间变换攻击，我们发现了类似的模式。虽然验证准确度随着扰动幅度的增加而全面降低，但具有7 × 7和9 × 9内核的汉明模型总是比基线模型显著更鲁棒（表2b）。5. 结论我们研究了CNN上下文中频谱泄漏的影响，并表明采用小内核大小的卷积层可能容易受到性能降低的泄漏伪影的影响作为一种解决方案，我们建议使用一个标准的汉明窗口上较大的ker-基线汉明25.0 45.019.47± 0.67 18.13± 1.2126.42±1.1324.55± 1.87（b）第（1）款表2.基线和汉明模型中的对抗鲁棒性所有结果均为5次运行的平均值。(a)CIFAR-10验证集上的分类准确性，有和没有DeepFool攻击产生的（干净）(b)CIFAR-10验证集上的分类精度，具有不同最大平移（tr）和旋转（rot）值的空间变换未扰动图像的精度与（a）中的相同。Nels，符合众所周知的滤波器设计原理。我们展示了增强的分类精度的基准数据集，在模型与汉明窗口。最后，我们在加窗CNN中展示了对DeepFool和空间变换攻击的改进的鲁棒性。这项工作基于一个简单且经过充分研究的想法，它在深度网络中提供了实际好处，突出了信号处理基础的重要性。我们相信，我们的工作开辟了新的研究问题，regarding其他原则的过滤器设计。计算成本。HW图像（HWk 2）上的2D卷积的复杂性与核大小k成二次比例（或对于可分离卷积（2HWk）[50]线性地）。然而，当比较Hamming与3 3个模型，需要在增加内核大小与增加深度以获得相同的精度，其中存储器负载将随着深度而增加。我们表明，使用较大的内核，这是计算上更昂贵的，但与更深的网络相比，并行化，是一个可行的选择时，内核窗口适当。我们注意到，窗函数可以在计算机视觉之外的领域中提供益处，例如音频处理，其中较大的内核大小是常见的。致谢本出版物是荷兰研究委员会（NWO）资助的“无像素深度学习”项目（TOP赠款，项目编号612.001.805）的一部分ImageNet验证精度[%]空间转换-验证准确度（%）模型Params内核大小Top-1Top-5特罗7× 7 9× 9模型内核大小基线汉明5× 524.85±0.347× 720.06±0.139× 918.24±0.4427.88±0.94基线清洁84.93± 0.1383.36±0.1681.30± 0.32模型前1名（%）前5名（%）ResNet1870.0189.42ResNet187×770.30×771.5489.5390.27ResNet3473.1291.34ResNet347×7 72.2090.43ResNet34 + Hamming7×774.5491.9114.14下载93.01ResNet507×7 75.7792.58ResNet50 + Hamming7×776.8093.21VGG-11 71.0390.00VGG-117×7 70.7589.76VGG-11 + Hamming7×772.0790.78VGG-13 72.3990.85VGG-137×7 72.5690.92VGG-13 + Hamming7×773.3291.48VGG-16 74.1591.84VGG-167×7 73.4791.39VGG-16 + Hamming7×775.1192.405146引用[1] Zeyuan Allen-Zhu和Yuanzhi Li。向后特性校正：深度学习如何执行深度学习。 arXiv 预印本 arXiv ：2001.04413，2020。第1、3条[2] Battista Biggio、Igino Corona、Davide Maiorca、BlaineNel-son、Ne dimSˇrndic´、PavelLaskov、Gior gioGiacinto和Fabio Roli。在测试时对机器学习的规避攻击。在联合欧洲会议关于机器学习和数据库知识发现，第387Springer，2013. 3[3] 斯坦·伯奇菲尔德图像处理与分析。Cengage Learning，2016. 2[4] 琼·布鲁纳和圣·埃芬·马拉特。变分散射卷积网络。IEEETransactionsonPatternAnalysisandMachineIntelligence，35（8）：1872-1886，2013。二、三[5] Minshuo Chen，Yu Bai，Jason D Lee，Tuo Zhao，HuanWang，Caiming Xiong，and Richard Socher.走向理解层次学习：神经表征的 Advances in Neural InformationProcessing Systems，NeurIPS，33，2020。第1、3条[6] Jean-Baptiste Cordonnier 、 Andreas Loukas 和 MartinJaggi。自我注意与卷积层的关系。在2019年国际学习代表会议上。1[7] Arturo Deza ， Qianli Liao ， Andrzej Banburski ， andTomaso Poggio.分层本地任务和深度卷积网络。arXiv预印本arXiv：2006.13915，2020。一、二[8] AlexeyDosovitskiy、LucasBeyer、AlexanderKolesnikov、Dirk Weissenborn、Xiaohua Zhai、ThomasUnterthiner 、 Mostafa Dehghani 、 Matthias Minderer 、Georg Heigold、Syl-vain Gelly、Jakob Uszkoreit和NeilHoulsby。一张图片相当于16x16个单词：用于大规模图像识别的变压器在学习代表国际会议上，2021年。1[9] Logan Engstrom 、 Brandon Tran 、 Dimitris Tsipras 、Ludwig Schmidt和Aleksander Madry。探索空间鲁棒性的前景在国际机器学习会议，ICML，第1802-1811页，2019年。三、七[10] Kevin Eykholt、Ivan Evtimov、Earlence Fernandes、BoLi 、 Amir Rahmati 、 Chaowei Xiao 、 Atul Prakash 、Tadayoshi Kohno和Dawn Song。对深度学习视觉分类的强大物理世界攻击。2018年IEEE计算机视觉和模式识别会议，CVPR，第1625-1634页3[11] R.C. Gonzalez和R.E.伍兹. 数字图像处理。培生普伦蒂斯学院，2008年。一、二[12] Ian J. Goodfellow，Jonathon Shlens，Christian Szegedy.解释和利用对抗性的例子。第三届国际学习表征会议，ICLR，2015年。3[13] Richard W.汉明数字滤波器多佛土木与机械工程。Dover Publicat

下载后可阅读完整内容，剩余1页未读，立即下载