没有合适的资源?快使用搜索试试~ 我知道了~
基于小波的卷积神经网络用于抗噪图像分类
Qiufu Li1,2Linlin Shen ∗ 1,2Sheng Guo3Zhihui Lai1,2{liqiufu,llshen}@szu.edu.cn,sheng@malong.com,lai zhi hui@163.comOriginal image XABXhlXlhXhhAWXllBWAAPAWMax-pooling imageAPBPMax-poolingAPBP72450基于小波的卷积神经网络用于抗噪图像分类01 计算机视觉研究所,深圳大学计算机科学与软件工程学院 2 深圳人工智能与机器人研究院 3 麦隆科技0摘要0卷积神经网络(CNN)通常容易受到噪声干扰,即小的图像噪声可能导致输出发生剧烈变化。为了抑制噪声对最终预测结果的影响,我们通过将最大池化、步幅卷积和平均池化替换为离散小波变换(DWT)来增强CNN。我们提出了适用于Haar、Daubechies、Cohen等各种小波的通用DWT和逆DWT(IDWT)层,并使用这些层设计了基于小波的卷积神经网络(WaveCNets)用于图像分类。在WaveCNets中,特征图在下采样过程中被分解为低频和高频分量。低频分量存储了包括基本对象结构在内的主要信息,这些信息被传递到后续层中提取稳健的高级特征。高频分量包含大部分数据噪声,在推理过程中被丢弃以提高WaveCNets的抗噪性能。我们在ImageNet和ImageNet-C(ImageNet的噪声版本)上的实验结果表明,WaveCNets(VGG、ResNets和DenseNet的小波集成版本)比它们的原始版本具有更高的准确性和更好的抗噪性能。01. 引言0由于输入的微小变化,经过训练的卷积神经网络(CNN)在图像分类中的输出可能会发生剧烈变化[13, 36,12]。特别地,CNN与弱抗噪声性能相关[15]。数据中的随机噪声主要是高频分量。在信号处理领域,将数据转换为不同的频率区间,并对高频区间中的分量进行去噪,是一种有效的去噪方法[9,10]。这种转换,如离散小波变换(DWT)[26],包括滤波和下采样。然而,常用的CNN架构(如VGG、ResNets和DenseNet等)在特征图下采样之前没有进行滤波。没有滤波,下采样可能导致低频和高频分量之间的混叠[28,42]。特别地,高频分量中的噪声可能被下采样到后续的特征图中,降低了CNN的抗噪声性能。与此同时,低频分量中呈现的基本对象结构可能会被破坏,如图1所示。在本文中,为了抑制噪声对最终预测结果的影响并提高分类准确性,我们将小波集成到常用的CNN架构中。我们首先将DWT和逆DWT(IDWT)转换为PyTorch中的通用网络层[29]。然后,我们通过用DWT替换常用的下采样来设计小波集成卷积网络(WaveCNet)。在下采样过程中,特征图被分解为低频和高频分量。低频分量存储了包括基本对象结构在内的主要信息,这些信息被传递到后续层中提取稳健的高级特征。高频分量包含大部分数据噪声,在推理过程中被丢弃以提高WaveCNet的抗噪性能。我们在ImageNet和ImageNet-C(ImageNet的噪声版本)上的实验结果表明,WaveCNet(VGG、ResNets和DenseNet的小波集成版本)比它们的原始版本具有更高的准确性和更好的抗噪性能。0� 通讯作者:Linlin Shen。0DWT0IDWT0最大池化0X X0图1.最大池化和小波变换的比较。最大池化是深度网络中常用的下采样操作,容易破坏基本对象结构。离散小波变换(DWT)将图像X分解为其低频分量Xll和高频分量Xlh,Xhl,Xhh。其中,Xlh,Xhl,Xhh表示包括大部分噪声的图像细节,Xll是数据的低分辨率版本,其中表示了基本对象结构。在图中,最大池化破坏了区域A(AP)中的窗口边界和区域B(BP)中的极点,而DWT输出(AW和BW)中保留了这些对象的主要特征。0架构(如VGG、ResNets和DenseNet等)在特征图下采样之前没有进行滤波。没有滤波,下采样可能导致低频和高频分量之间的混叠[28,42]。特别地,高频分量中的噪声可能被下采样到后续的特征图中,降低了CNN的抗噪声性能。与此同时,低频分量中呈现的基本对象结构可能会被破坏,如图1所示。在本文中,为了抑制噪声对最终预测结果的影响并提高分类准确性,我们将小波集成到常用的CNN架构中。我们首先将DWT和逆DWT(IDWT)转换为PyTorch中的通用网络层[29]。然后,我们通过用DWT替换常用的下采样来设计小波集成卷积网络(WaveCNet)。在下采样过程中,特征图被分解为低频和高频分量。低频分量存储了包括基本对象结构在内的主要信息,这些信息被传递到后续层中提取稳健的高级特征。高频分量包含大部分数据噪声,在推理过程中被丢弃以提高WaveCNet的抗噪性能。我们在ImageNet和ImageNet-C(ImageNet的噪声版本)上的实验结果表明,WaveCNet(VGG、ResNets和DenseNet的小波集成版本)比它们的原始版本具有更高的准确性和更好的抗噪性能。72460通过去除特征图的高频分量,WaveCNet增加了CNN的噪声鲁棒性,并从低频分量中提取高级特征以获得更好的分类准确性。我们使用ImageNet[8]和ImageNet-C[15]来评估WaveCNets的分类准确性和噪声鲁棒性,使用不同的小波和不同的CNN架构。最后,我们探索了DWT/IDWT层在图像分割中的应用。总结如下:01.我们提出了适用于各种小波的通用DWT/IDWT层,可用于设计端到端的小波集成深度网络。2.我们通过用DWT替换现有的下采样操作来设计WaveCNets,以提高CNN的分类准确性和噪声鲁棒性。3.我们在ImageNet上评估了WaveCNets,并取得了更高的准确性和更好的噪声鲁棒性。4.所提出的DWT/IDWT层进一步集成到SegNet[2]中,以提高编码器-解码器网络的分割性能。02. 相关工作02.1. 噪声鲁棒性0当输入图像发生变化时,CNN的输出可能会有很大的差异,无论这种变化是否容易被人类察觉[13, 12, 21,36]。虽然这些变化可能来自于各种因素,比如位移[42,25]、旋转[5]、噪声[36]、模糊[15]、手动攻击[13]等,但我们关注的是CNN对常见噪声的鲁棒性。在[21]中设计了一个高级表示引导去噪器,用于去噪受污染的图像,然后输入到CNN中,这可能会使整个深度网络结构变得复杂。在[36]中,作者提出了用于CNN的去噪块,用于去噪特征图并抑制噪声对最终预测的影响。然而,作者设计的去噪块使用了空间滤波,比如高斯滤波、均值滤波和中值滤波等,这些滤波在整个频域进行去噪,可能会破坏低频分量中包含的基本对象结构。因此,他们的去噪块需要一个残差结构来使CNN收敛。最近,在[15]中提出了一个评估CNN在噪声图像上性能的基准。我们将使用这个基准来评估WaveCNets。最近的研究表明,ImageNet训练的CNN更喜欢从对噪声敏感的对象纹理中提取特征[3,12]。通过使用样式转移将ImageNet图像风格化,提出了StylizedImageNet[12],使CNN能够从对象结构中提取更加鲁棒的特征。噪声可能会随着特征图在CNN中的层之间流动而放大[21, 36],导致最终的错误预测。0这些问题可能与下采样操作忽略了经典采样定理有关。02.2. 下采样0为了实现局部连接和权重共享,研究人员在深度网络中引入了各种下采样操作,如最大池化、平均池化、混合池化、随机池化和步幅卷积等。虽然最大池化和平均池化简单有效,但它们可能会擦除或稀释图像的细节[38,40]。虽然混合池化[38]和随机池化[40]被引入来解决这些问题,但最大池化、平均池化和步幅卷积仍然是CNN中最常用的操作[14, 16, 31,33]。这些下采样操作通常忽略了经典的采样定理[1,42],这可能会破坏对象结构并累积噪声。图1显示了一个最大池化的例子。抗锯齿CNN[42]将经典的抗锯齿滤波与下采样结合起来。作者对增加的分类准确性和更好的噪声鲁棒性感到惊讶。与抗锯齿CNN相比,我们的WaveCNets在两个方面有显著的不同:(1)虽然抗锯齿CNN仍然使用Max操作,但WaveCNets不需要这样的操作。(2)抗锯齿CNN中使用的低通滤波器是基于Pascal三角形的行向量经验设计的,这是一种特殊情况,并没有给出理论上的证明。由于没有可用的严格数学术语,这些上采样操作无法精确地恢复原始数据。它们在恢复图像细节方面表现不佳。02.3. 小波0小波[6,26]是强大的时频分析工具,在信号处理中有广泛应用。离散小波变换(DWT)将数据分解为不同频率间隔的各个分量,逆离散小波变换(IDWT)可以使用DWT输出重构数据。DWT可应用于信号处理中的抗混叠,我们将探索其在深度网络中的应用。IDWT可用于图像到图像任务中的细节恢复。小波已与神经网络结合用于sj =�k(lj−2ks1k + hj−2kd1k) .(2)s1 = Ls,d1 = Hs,(3)s = LT s1 + HT d1,(4)L =· · ·· · ·· · ·· · ·l−1l0l1· · ·· · ·l−1l0l1· · ·· · ·· · · ,(5)H =· · ·· · ·· · ·· · ·h−1h0h1· · ·· · ·h−1h0h1· · ·· · ·· · · . (6)Xll = LXLT ,(7)Xlh = HXLT ,(8)Xhl = LXHT ,(9)Xhh = HXHT ,(10)X = LT XllL + HT XlhL + LT XhlH + HT XhhH.(11)∂s1∂s = LT ,∂d1∂s = HT .(12)72470函数逼近[41],信号表示和分类[34]。在这些早期的工作中,作者们将浅层网络应用于在小波参数域中搜索最优小波。最近,这种方法与更深的网络一起用于图像分类,但由于计算成本的显著增加,网络很难训练[7]。ScatNet[5]将小波变换级联到非线性模量和平均池化中,以提取对变形具有平移不变性的特征,并保留图像分类的高频信息。作者们在从数学和算法的角度探索如何设计最优深度网络时引入了ScatNet。与同一时期的CNN相比,ScatNet在手写数字识别和纹理识别任务上表现更好。然而,由于严格的数学假设,ScatNet不能轻易地转移到其他任务。在深度学习中,小波通常起到图像预处理或后处理的作用[17,23,32,39]。与此同时,研究人员尝试将小波变换引入到各种任务的深度网络设计中[22,35,11,37],通过将小波变换作为采样操作。[22]中提出的多级小波CNN(MWCNN)将小波包变换(WPT)集成到深度网络中用于图像恢复。MWCNN将输入特征图的低频和高频分量连接起来,并以统一的方式处理它们,而这些组成部分中的数据分布显著不同。[11]中提出的卷积小波神经网络(CWNN)应用双树复小波变换(DT-CWT)来抑制噪声并保持从SAR图像中提取稳健特征的结构。CWNN的架构只包含两个卷积层。虽然DT-CWT是冗余的,但CWNN将其下采样输出作为从DT-CWT输出的多个分量的平均值。[35]中提出的小波池化是使用两级DWT设计的。其反向传播执行一级DWT和两级IDWT,不遵循梯度的数学原则。作者们在各种数据集(MNIST[20],CIFAR-10 [18],SHVN [27]和KDEF[24])上测试了他们的方法。然而,他们的网络架构只包含四个或五个卷积层。作者们没有系统地研究该方法在标准图像数据集(如ImageNet[8])上的潜力。最近,在[37]中研究了小波变换在图像风格转换中的应用。在上述工作中,由于缺乏通用小波变换层,作者们只评估了一两个小波的方法。03. 我们的方法0我们的方法试图将小波变换应用于改进深度网络中的下采样操作。我们0首先设计通用的DWT和IDWT层。03.1. DWT和IDWT层0DWT和IDWT层设计中的关键问题是数据的正向和反向传播。尽管以下分析是针对正交小波和1D信号的,但可以通过微小的改变推广到其他小波和2D/3D信号。正向传播对于1D信号s = {sj} j ∈ Z,DWT将其分解为低频分量s1 = {s1k} k∈ Z和高频分量d1 = {d1k} k ∈ Z,其中s1k =0并且 l = { l k } k ∈ Z , h = { h k } k ∈ Z是正交小波的低通和高通滤波器。根据公式(1),DWT由滤波和下采样组成。使用IDWT,可以从s1,d1重构s0在矩阵和向量的表达式中,公式(1)和公式(2)可以重写为0其中0对于2D信号X,DWT通常对其每一行和每一列进行1DDWT,即0相应的IDWT是用以下方式实现的0反向传播对于DWT的反向传播,我们从公式(3)开始进行微分MaxPool(stride 2)DWTAvgPool(stride 2)DWTConv(stride 2)DWTConv(stride 1)(a)(b)Max PoolingStrided ConvolutionAverage PoolingNoisy Data XDWTXX , X , XDenoising operationsX , X , XIDWTDenoised Data XNoisy Data XDWTXNoisy Data XDWTNoisy Data XDWTXX , X , XX , X , XXDenoised Data XIDWTDWTXllXlhXhlXhhoperationslhXhlXhhMaxPool(stride 2)DWTAvgPool(stride 2)DWTConv(stride 2)DWTConv(stride 1)(a)(b)Max PoolingStrided ConvolutionAverage PoolingNoisy Data XDWTXX , X , XDenoising operationsX , X , XIDWTDenoised Data XNoisy Data XDWTXNoisy Data XDWTNoisy Data XDWTXX , X , XX , X , XXDenoised Data XIDWTDWTXXXXXXDWTllll∂s∂s1= L,∂s∂d1= H.(13)3.2. WaveCNetsDWTll(a)IDWTDenoised Data XXDWTXXXXDenoising operationsXXXIDWTDenoised Data XDWTX[X , X , X , X ](X + X + X + X )/4Average DWTConcatenate DWT72480据 X0数据 X DWT X0(a) 使用小波的一般去噪方法0去噪操作0噪声数据 X0去噪操作 X0IDWT 去噪数据 X0平均 DWT0(b) 最简单的基于小波的“去噪”方法,DWT ll0图2. 基于小波变换的一般去噪方法和WaveCNet中使用的方法0类似地,对于1D IDWT的反向传播,微分公式(4)02D/3D DWT和IDWT的正向和反向传播稍微复杂一些,但与1DDWT和IDWT类似。在实践中,我们选择具有有限滤波器的小波,例如l = 1 √02 { 1 , 1 } 并且 h = 1 √02 { 1 , − 1 } 。对于有限信号s ∈ R N0并且 X ∈ R N × N,L和H被截断为�N的大小02 � × N 。我们将1D/2D/3DDWT和IDWT转换为PyTorch中的网络层。在这些层中,我们对多通道数据逐通道进行DWT和IDWT。0给定一个有噪声的2D数据X,随机噪声主要出现在其高频分量中。因此,如图2(a)所示,一般的基于小波的去噪方法[9,10]包括三个步骤:(1)使用DWT将有噪声的数据X分解为低频分量Xll和高频分量Xlh,Xhl,Xhh,(2)过滤高频分量,(3)使用IDWT重构处理后的分量的数据。在本文中,我们选择最简单的基于小波的“去噪”方法,即丢弃高频分量,如图2(b)所示。DWTll表示将特征映射转换为低频分量的变换。我们通过用DWTll直接替换常用的下采样来设计WaveCNets,如图3所示,在WaveCNets中,最大池化和平均池化直接被DWTll替换,而带步长为1的卷积则使用卷积后跟DWTll进行升级,即0最大池化s=2 → DWT ll , (14)0其中“MaxPool s”、“Conv s”和“AvgPool s”分别表示0平均池化s=2 → DWT ll , (16)0DWT ll0最大池化(步幅2)0平均池化(步幅2)0卷积(步幅2)0(b)0最大池化 步幅卷积 平均池化0X0X0X0图3. (a) 基准,深度网络中的下采样操作。 (b)WaveCNets中的小波集成下采样。0最大池化、步幅卷积和平均池化的步幅分别为s。DWTll将特征图的大小减半,同时去除其高频成分并对其进行去噪。DWTll的输出,即低频成分,保存了特征图的主要信息以提取可识别的特征。在WaveCNets的下采样过程中,DWTll可以抵抗深度网络中的噪声传播,并帮助保持特征图中的基本对象结构。因此,DWTll将加速深度网络的训练,提高噪声鲁棒性和分类准确性。04. 实验0常用的图像分类CNN架构,如VGG [33],ResNets[14],DenseNet[16],由各种最大池化、平均池化和步幅卷积组成。通过使用公式(14)-(16)升级下采样,我们创建了WaveCNets,包括WVGG16bn,WResNets,WDenseNet121。与原始的CNN相比,WaveCNets不使用额外的可学习参数。我们使用ImageNet [8]和ImageNet-C[15]评估它们的分类准确性和噪声鲁棒性。最后,我们探索了小波集成深度网络在图像分割中的潜力。04.1. ImageNet分类0ImageNet包含来自1000个类别的120万个训练图像和5万个验证图像。在训练集上,我们使用不同的小波训练WaveCNets,并使用公开可用的PyTorch[29]库中的标准训练协议。表1展示了WaveCNets在ImageNet验证集上的top-1准确率,其中“haar”、“dbx”和“chx.y”分别表示Haar小波、Daubechies小波(近似阶数为x)和Cohen小波(阶数为(x,y))。随着阶数的增加,小波滤波器的长度也增加。虽然Haar和Cohen小波是对称的,但Daubechies小波不是。在表1中,括号中的数字是与基准结果相比的准确率差异。基准结果即原始CNN的结果,来源于官方的PyTorch[29]。对于所有的CNN架构,Haar和Cohen小波都提高了它们的分类准确性。WaveletWVGG16bnWResNet18WResNet34WResNet50WResNet101WDenseNet1211.21.41.61.82.02.22.42.672490表1. WaveCNets在ImageNet验证集上的top-1准确率。0None(基准)* 73.37 69.76 73.30 76.15 77.37 74.650Haar 74.10(+0.73) 71.47(+1.71) 74.35(+1.05) 76.89(+0.74) 78.23(+0.86) 75.27(+0.62)0Cohen0ch2.2 74.31(+0.94) 71.62(+1.86) 74.33(+1.03) 76.41(+0.26) 78.34(+0.97) 75.36(+0.71) ch3.374.40(+1.03) 71.55(+1.79) 74.51(+1.21) 76.71(+0.56) 78.51(+1.14) 75.44(+0.79) ch4.474.02(+0.65) 71.52(+1.76) 74.61(+1.31) 76.56(+0.41) 78.47(+1.10) 75.29(+0.64) ch5.573.67(+0.30) 71.26(+1.50) 74.34(+1.04) 76.51(+0.36) 78.39(+1.02) 75.01(+0.36)0Daubechies0db2 74.08(+0.71) 71.48(+1.72) 74.30(+1.00) 76.27(+0.12) 78.29(+0.92) 75.08(+0.43) db371.08(+1.32) 74.11(+0.81) 76.38(+0.23) db4 70.35(+0.59) 73.53(+0.23) 75.65(-0.50) db569.54(-0.22) 73.41(+0.11) 74.90(-1.25) db6 68.74(-1.02) 72.68(-0.62) 73.95(-2.20)0*对应于原始CNN(即VGG16bn、ResNets、DenseNet121)的结果。00 10 20 30 40 50 60 70 80 epoch0损失0在训练数据上的ResNet18在验证数据上的ResNet18在训练数据上的WResNet18(Haar)在验证数据上的WResNet18(Haar)0图4. ResNet18和WResNet18(Haar)的损失。0准确度,尽管最佳小波变换因CNN而异。例如,Haar小波和Cohen小波将ResNet18的准确度提高了1.50%至1.86%。然而,随着逼近阶数的增加,非对称Daubechies小波的性能变差。较短滤波器的Daubechies小波(“db2”和“db3”)可以提高CNN的准确度,而较长滤波器的Daubechies小波(“db5”和“db6”)可能会降低准确度。例如,WResNet18的top-1准确度从71.48%降至68.74%。我们得出结论,对称小波在图像分类中的表现优于非对称小波。这就是为什么我们不使用“db3”、“db4”、“db5”和“db6”来训练WVGG16bn、WResNet101和W-DenseNet121的原因。我们使用PyTorch中的标准ImageNet分类训练存储库重新训练了ResNet18。在图4中,我们比较了ResNet18和WResNet18(Haar)在训练过程中的损失。图4使用红色虚线和绿色虚线分别表示ResNet18和WResNet18(Haar)的训练损失。在整个训练过程中,当两个网络使用相同数量的可学习参数时,WResNet18(Haar)的训练损失约比ResNet18低0.08。这表明小波加速了ResNet18架构的训练。在验证集上,WResNet180损失(绿色实线)始终低于ResNet18的损失(红色实线),这导致最终分类准确度提高了1.71%。0图5展示了经过充分训练的CNN和WaveCNet的四个示例特征图。在每个子图中,顶部一行显示了来自ImageNet验证集的尺寸为224×224的输入图像以及原始CNN生成的两个特征图,而底部一行显示了相关信息(图像、CNN和WaveCNet名称)以及WaveCNet生成的特征图。这两个特征图分别来自网络块中最后一层的第16个输出通道,张量尺寸为56×56(中间)和28×28(右侧)。为了更好地说明,特征图已经被放大。0从图5可以看出,WaveCNet生成的特征图的背景比CNN生成的特征图更清晰,前者的对象结构比后者更完整。例如,在图5(d)的顶部一行中,尺寸为56×56的ResNet50特征图中的时钟边界模糊不清,而尺寸为28×28的特征图中的时钟基本结构完全被强噪声破坏。在第二行中,WResNet50(ch3.3)生成的特征图的背景非常清晰,很容易看出尺寸为56×56的特征图中的时钟结构以及尺寸为28×28的特征图中的时钟区域。以上观察结果说明,在CNN推断过程中,下采样操作可能会导致噪声积累并破坏基本对象结构,而WaveCNet中的DWT可以缓解这些缺点。我们相信这就是为什么WaveCNet在训练中收敛更快并最终实现更好的分类准确度的原因。0在[42]中,作者惊讶地发现,在下采样中集成滤波后,CNN的分类准确率有所提高。在[12]中,作者表明“ImageNet训练的CNN对纹理的识别能力强于对形状的识别能力”。我们的实验结果表明,这可能源自常用的下采样操作,这些操作往往会破坏物体结构并在特征图中积累噪声。56x5628x28n07920052/00041584VGG16bn &WVGG16bn(ch3.3)0.00.20.40.60.856x5628x28n02281787/00009023ResNet18 &WResNet18(ch2.2)0.000.250.500.751.001.251.501.7556x5628x28n03770679/00038133ResNet34 &WResNet34(ch4.4)0.00.51.01.52.02.53.056x5628x28n04548280/00014035ResNet50 &WResNet50(ch3.3)0.00.20.40.60.8baselinedb6db5db4db3db2ch5.5ch4.4ch3.3ch2.2haar6466687072747678808284868890mCEWVGG16bnWResNet18WResNet34WDenseNet121WResNet50WResNet10172500(a) VGG16bn和WVGG16bn0(b) ResNet18和WResNet180(c) ResNet34和WResNet340(d) ResNet50和WResNet500图5. CNN的特征图(顶部)和WaveCNets的特征图(底部)。0WaveCNets的噪声mCE(越低越好)0图6. WaveCNets的噪声mCE。04.2. 噪声鲁棒性0在[15]中,作者使用15种视觉污染和五个严重程度水平对ImageNet验证集进行污染,创建了ImageNet-C并测试了ImageNet训练的分类器对输入污染的鲁棒性。这15种污染来自四个类别,即噪声(高斯噪声,拍摄噪声,冲击噪声),模糊(焦点模糊,霜玻璃模糊,运动模糊,缩放模糊),天气(雪,霜,雾,0亮度),和数字(对比度,弹性,像素化,JPEG-压缩)。Ef s,c表示训练好的分类器 f 在污染类型 c 的严重程度水平 s上的top-1错误。作者提出了污染错误CE f c,通过0CE f c =0s =1 E f s,c050s =1 E AlexNet s,c , (17)0用于评估训练好的分类器 f的性能。在公式(17)中,作者使用AlexNet[19]的top-1错误对错误进行归一化,以调整不同污染之间的差异。在本节中,我们使用ImageNet-C的噪声部分(750K图像,50K×3×5)和0mCE f 噪声 =10CE f 高斯 + CE f shot + CE f 冲击(18)0用于评估WaveCNet f的噪声鲁棒性。我们测试WaveCNets和AlexNet在每种噪声污染类型 c 的每个严重程度水平 s上的top-1错误,当WaveCNets和AlexNet在干净的ImageNet训练集上进行训练时。然后,我们根据公式(17)和(18)计算mCE WaveCNet噪声。在图6中,我们展示了不同网络架构和不同小波的WaveCNets的噪声mCE。“基准”对应于原始CNN架构的噪声mCE,而“dbx”,“chx.y”和“haar”对应于具有不同小波的WaveCNets的mCE。除了VGG16bn外,我们的方法input dataNet18WResNet180.00.20.40.81.01.21.4input dataResNet18WResNet180.000.751.001.251.502.00MaxPool(stride 2)DWTAvgPool(stride 2)DWTConv(stride 2)DWTConv(stride 1)(a)(b)Max PoolingStrided ConvolutionAverage PoolingNoisy Data XDWTXX , X , XDenoising operationsX , X , XIDWTDenoised Data XDWTXDWTDWTXX , X , XX , X , XXIDWTDWTXXXXXXMaxPool(stride 2)DWTAvgPool(stride 2)DWTConv(stride 2)DWTConv(stride 1)(a)(b)Max PoolingStrided ConvolutionAverage PoolingDWTXX , X , XDWTDWTX , X , XXXXXX72510噪声0(0自干净图像(顶部)和噪底部)0明显提高了CNN架构对图像分类的噪声鲁棒性。例如,ResNet18的噪声mCE(在深蓝色和向下三角形标记)从88.97(“基准”)降0.38(“ch2.2”)。可以发现,包括“db5”和“db6”在内的所有小波都提高了ResNet18、ResNet34和ResNet50的噪声鲁棒性,尽管WResNets在干净图像上的分类准确率可能低于原始ResNets。这意味着我们的方法确实提高了这些网络架构的噪声鲁棒性。图7展示了以噪声图像为输入的经过良好训练的ResNet18和WResNet18的两个示例特征图。在每个子图中,第一行显示了来自ImageNet验证集的大小为224×224的干净图像以及由ResNet18和WResNet18(ch2.2)生成的特征图。第二行显示了添加了高斯或冲击噪声的图像以及由两个网络生成的特征图。这些特征图是从网络块中最后一层的第16个输出通道中捕获的,张量大小为56×56。从这两个示例中,可以发现原始CNN很难抑制噪声,而WaveCNet可以在推理过程中抑制噪声并保持物体结构。例如,在图7(a)中,当将干净的瓷瓶图像输入网络时,ResNet18和WResNet18(ch2.2)生成的两个特征图中的瓶子结构是完整的。然而,当图像被高斯噪声破坏后,ResNet18的特征图包含非常强的噪声,瓶子结构消失了,而WResNet18的特征图仍然可以观察到基本结构。这种优势提高了WaveCNets对不同噪声的鲁棒性。VGG16bn的噪声鲁棒性不如ResNet34,尽管它们的准确率相似(73.37%和73.30%)。我们的方法不能显著提高VGG16bn的噪声鲁棒性,尽管它可以将准确率提高1.03%。这意味着VGG16bn在噪声鲁棒性方面可能不是一个合适的架构。0噪声数据 X0去噪 操作0噪声数据 X0去噪数据X0噪声数据 X0去噪 操作 X0IDWT 去噪数据 X0 DWT X0数据 X [ X , X , X ,0连接 DWT0(a) 平均模式 [ 11 ]。0噪声数据 X0去噪 操作 X , X , X0IDWT 去噪数据 X0噪声数据 X0噪声数据 X0去噪 操作0噪声数据 X0去噪数据X0噪声数据 X0去噪 操作 X0IDWT 去噪数据 X0数据 X DWT X0数据 X [ X ll , X lh0连接 DWT0(b) 连接模式 [ 22 ]。0图8. 不同模式下的小波集成下采样。04.3. 与其他基于小波的下采样方法的比较。0与我们基于DWT的下采样不同(图。02(b) ),文献中还有其他集成小波下采样模式。在[ 11]中,作者采用小波变换的多个分量的平均值作为下采样输出,如图8(a)所示。在[ 22]中,作者将从DWT输出的所有分量连接起来,并以统一的方式处理,如图8(b)所示。在此,我们以ResNet18作为骨干网络,将我们的小波集成下采样与以前的方法进行比较,包括分类准确性和噪声鲁棒性。我们使用图2(b)和图8中显示的三种下采样模式重新构建ResNet18,并分别称之为WResNet18,WResNet18 A和WResNet18C。我们在ImageNet上使用不同的小波对它们进行训练。表2显示了在ImageNet上的准确性和ImageNet-C上的噪声mCE。通常,使用基于小波的下采样的网络比原始网络ResNet18(69.76%的准确性和88.97的mCE)具有更好的准确性和噪声mCE。与WResNet18类似,WResNet18A的参数数量与原始ResNet18相同。然而,特征图中添加的高频分量破坏了低频分量中包含的信息,因为存在高频噪声。在使用基于小波的下采样的网络中,WResNet18A的性能最差。由于张量连接,WResNet18 C采用了WResNet1871.4771.6271.5571.5271.2671.4811.69MWResNet18 A [11]70.0669.2469.9169.9870.3170.5211.69MWResNet18 C [22]71.9471.7571.6671.9972.0371.8821.62MTensor (Copy and Concatenate)MainstreamPoolingConv3x3 + BN + ReLUDeConvPoolingConv3x3 + BN + ReLUUnpoolingPoolingConv3x3 + BN + ReLUMainstreamPooling IndicesMainstreamMainstreamonvMainstreamDeConvPoolingUnpoolingPoolingConv3x3 + BN + ReLUIDWTDWTConv3x3 + BN + ReLUMainstreamXlh, Xhl, XhhXllMainstreamConv3x3 + BN + ReLUIDWTDWTPoolingskybuildingpoleroadsidewalktreesymbolfencecarpedestrianbicyclistunlabelledWAUNet(ch5.5)roadsidewalk72520表2. 与其他基于小波的下采样方法的比较。0网络Top-1准确率(越高越好)参数。haar ch2.2 ch3.3 ch4.4 ch5.5 db20WResNet34 74.35 74.33 74.51 74.61 74.34 74.30 21.80M0噪声mCE(越低越好)0WResNet18 80.91 80.38 81.02 82.19 83.77 82.54 WResNet18 A[11] 83.17 86.02 86.07 85.22 82.96 84.01 WResNet18 C [22]81.79 83.67 83.51 82.13 82.60 80.110WResNet34 76.64 77.61 74.30 76.19 76.00 72.730(a)SegNet0(b)WaveUNets0图9. SegNet和WaveUNet中使用的下采样和上采样。0参数数量要多得多(21.62×10^6),而WResNet18和WResNet18A的参数数量为11.69×10^6。因此,当使用不同的小波时,WResNet18C将WResNet18的准确性提高了0.11%至0.77%。然而,由于包含的噪声,连接并没有明显改善噪声鲁棒性。此外,WResNet18C的参数数量几乎与WResNet34(21.80×10^6)相同,而WResNet34的准确性和噪声mCE明显优于WResNet18 C。04.4. 图像分割0我们方法的主要贡献是DWT和IDWT层。IDWT是一种有用的上采样方法,用于恢复数据的细节。借助IDWT,WaveCNets可以轻松地应用于图像到图像的转换任务。我们现在测试它们在语义图像分割中的应用。为了在图像分割中恢复细节,我们通过将SegNet[2]中的最大池化和最大解池化替换为DWT和IDWT来设计WaveUNets。SegNet采用编码器-解码器架构,并使用V
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功