基于学习的频率选择方法：提高神经网络准确性与数据量减少的频域学习方法

137 浏览量更新于2023-10-23 收藏 1.44MB PDF 举报

频域分析

图像处理

身份认证购VIP最低享 7 折!

30元优惠券

43211740频域徐凯1，2秦明海1孙飞1王宇浩1陈彦光1任凤波21阿里巴巴集团DAMO学院2亚利桑那州立大学摘要深度神经网络在计算机视觉任务中取得了显着的成功。现有的神经网络主要在具有固定输入大小的空间域中操作对于实际应用，图像通常很大，并且必须下采样到神经网络的预定输入大小。尽管下采样操作减少了计算和所需的通信带宽，但它消除了冗余和显著的信息遗漏，这导致准确性降低。受数字信号处理理论的启发，本文从频率的角度分析了频谱偏差，并提出了一种基于学习的频率选择方法，以确定可以在不损失精度的情况下去除的平凡频率分量。所提出的频域学习方法利用了众所周知的神经网络（例如ResNet-50、MobileNetV 2和Mask R-CNN）的相同结构实验结果表明，与传统的空间下采样方法相比，采用静态通道选择的频域学习方法可以获得更高的精度，同时进一步减少输入数据量。特别是对于具有相同输入大小的ImageNet分类，所提出的方法实现了1。60%和0。在ResNet-50和MobileNetV 2上分别实现了63%的top-1准确度提升。即使使用一半的输入大小，所提出的方法仍然将ResNet-50上的top-1精度提高了1。百分之四十二此外，我们还观察到0。Mask R-CNN的平均精度提高了8%，例如COCO数据集上的分割。1. 介绍卷积神经网络（CNN）由于其在图像分类[1，2]、对象检测[3，4]和语义分割等各种任务上的出色性能，已经和内存限制，大多数CNN模型只接受低分辨率的RGB图像（例如，，224<$224）。然而，现代照相机产生的图像通常要大得多.例如，高清晰度（HD）分辨率图像（1920 - 1080）被现代标准认为是相对较小的。即使ImageNet数据集[7]中的平均图像分辨率也是482415，大约是大多数CNN模型所接受的大小的四倍。因此，大部分真实世界的图像被积极地缩小到224 ×224，以满足分类网络的输入要求。然而，图像缩小不可避免地导致信息丢失和精度降低[8]。先前的工作[9，10]旨在通过学习任务感知的缩小网络来减少信息丢失。然而，这些网络是特定于任务的，并且需要额外的计算，这在实际应用中是不利的在本文中，我们提出了重塑高分辨率图像的频率域，即。离散余弦变换（DCT）做1，而不是在空间域中对它们进行整形，然后将整形后的DCT系数馈送到CNN模型进行推理。我们的方法只需要对现有的以RGB图像为输入的CNN模型进行少量修改。因此，它是常规数据预处理流水线的通用替代品我们证明，我们的方法在图像分类，对象检测和实例分割任务中比传统的基于RGB的方法具有相同或更小的输入数据大小实现了更高的准确性所提出的方法导致所需的芯片间通信带宽的直接减少，这通常是现代深度学习推理系统中的瓶颈，即，，快速发展的AI加速器/GPU的计算吞吐量越来越高于CPU的数据加载吞吐量，如图1所示受人类视觉系统（HVS）对不同频率分量的敏感性不相等的观察启发[11]，我们在频域中分析了图像分类，检测和分割任务，发现CNN模型对低频通道比高频通道更敏感，这与CNN模型对低频通道的敏感性一致。心理状态[5，6]。受计算资源的限制1我们可互换地使用术语频域和DCT域在阿里巴巴实习期间完成的部分工作。在本文的背景下。43211741预处理（CPU）DCT信道选择低CB推理（GPU或加速器）CNN预处理（CPU）高CB推理（GPU或加速器）CNN（一）（b）第（1）款图1：（a）使用RGB图像作为输入的传统基于CNN的方法的工作流程。(b)所提出的方法的工作流程使用DCT系数作为输入。CB表示CPU和GPU/加速器之间所需的通信带宽。关于HVS这一观察是由一个基于学习的通道选择方法，由多个“开关”验证。具有相同频率的DCT系数被打包为一个信道，并且每个开关被堆叠在特定的频率信道上，以允许整个信道流入网络或不流入网络。从数据传输和计算的角度来看，使用解码的高保真图像进行模型由于CNN模型的频谱偏差，在推断期间只能保留重要的频率通道而不会损失准确性。在本文中，我们还开发了一个静态的信道选择方法，以保持显着的渠道，而不是使用整个频谱的推断。实验结果表明，当输入数据量减少87.5%时，CNN模型仍保持相同的精度本文的贡献如下：• 我们提出了一种在频率域中学习的方法（使用DCT系数作为输入），这需要对现有的采用RGB输入的 CNN 模型进行很少的修改。我们在ResNet- 50和MobileNetV 2上验证了我们的方法用于图像分类任务，并在Mask R-CNN上验证了我们的方法用于实例分割任务。• 我们表明，与传统的空间下采样方法相比，频域中的学习在预处理阶段更好地保留了图像信息（将图像在空间上扩展到224 × 224，这是大多数CNN模型的默认输入大小），从而实现了更高的准确性，即，+1。60%在ResNet-50和+0上。63%在MobileNetV 2上用于Ima-geNet分类任务，+0。Mask R-CNN上的8%，用于对象检测和实例分割任务。• 我们从频率的角度分析了谱偏差，并表明CNN模型更有意义。对低频通道比对高频通道敏感，类似于人类视觉系统（HVS）。• 我们提出了一种基于学习的动态通道选择方法来识别平凡频率分量，以便在推理过程中静态去除在ResNet-50上的实验结果表明，可以修剪高达87。5%的频率通道使用所提出的通道选择方法，在ImageNet分类任务中没有或几乎没有准确性下降。• 据我们所知，这是第一个探索在频域中学习对象检测和实例分割的工作在Mask R-CNN上的实验结果表明，在频率域的学习可以达到0。COCO数据集上实例分割任务的平均精度提高了8%2. 相关工作频域学习：频域中的压缩表示包含用于图像理解任务的丰富模式。[14，15，16]联合训练基于自动编码器的专用网络进行压缩和[17]从频域中提取特征对图像进行[18]提出了一种模型转换算法，将空间域CNN模型转换到频域。我们的方法不同于以前的作品在两个方面。首先，我们避免了复杂的模型从空间到频率域的过渡过程。因此，我们的方法具有更广泛的应用范围。其次，我们提供了一种分析方法来解释神经网络的频谱偏差在频域。动态神经网络：先前的作品[19，20，21，22，23]提出基于先前块的激活而选择性地在运行中跳过卷积块。43211742CRY铬铬Cb CbY Y空间调整大小和裁剪DCT变换DCT整形DCT通道选择DCT级联DCT归一化图2：用于频域学习的数据预处理管道这些工作响应于每个卷积块的输入来调整模型复杂度在推理阶段只计算与输入最相关的中间特征，以减少计算成本。相反，我们的方法只对原始输入进行操作，并提取显着的频率分量，以降低输入数据的通信带宽要求。高效的网络培训：最近对训练高效网络[24，25，26，27]有很大的兴趣，这些兴趣集中在通过内核修剪，学习量化和熵编码的网络压缩上。另一条线的作品旨在压缩CNN模型在频域中。[28]通过将滤波器权重转换到频域并使用散列函数将频率参数分组到散列桶中来减少存储空间[29]还将核变换到频域，并丢弃低能量频率系数以进行高压缩。[30]约束CNN内核的频谱以减少内存消耗。这些在频域中的网络压缩工作都依赖于基于FFT的卷积，其通常在较大的内核上更有效。尽管如此，最先进的CNN模型使用小内核，例如，、33或11。延长需要采取积极的努力来优化这些基于FFT的CNN模型的计算效率[31]。相反，我们的方法对现有的CNN模型几乎没有修改。因此，我们的方法不需要额外的努力来提高其在具有小内核的CNN模型上的计算效率。另一个根本区别是，我们的方法旨在减少输入数据的大小，而不是模型的复杂性。3. 方法在本文中，我们提出了一个通用的方法在频域中的学习，包括一个数据预处理流水线，以及输入数据的大小修剪方法。图1显示了我们的方法和常规方法。在传统方法中，高分辨率RGB图像通常在CPU上进行预处理并传输到GPU/AI加速器以进行实时推断。由于RGB格式的未压缩图像通常很大，因此CPU和GPU/AI加速器之间的通信带宽要求通常很这种通信带宽可能是系统性能的瓶颈，如图1（a）所示。为了降低计算成本和通信带宽要求，高分辨率RGB图像被下采样为更小的图像，这通常会导致信息丢失，从而降低推理精度。在我们的方法中，高分辨率RGB图像仍然在CPU上进行预处理然而，它们首先被变换到YCbCr颜色空间，然后变换到频域。这与最广泛使用的图像压缩标准（如JPEG）一致相同频率的所有分量被分组到一个信道中以这种方式，生成多个频率信道。如第3.2节所示，某些频率通道对推断精度的影响大于因此，我们建议仅保留最重要的频率通道并将其传输到GPU/AI加速器进行推理。与传统方法相比，该方法在保证较高精度的同时，降低了通信带宽的要求。我们证明了频域中的输入特征具体地，只需要移除输入CNN层并保留剩余的残差块。第一个残差层被用作输入层，并且输入通道的数量因此，修改后的模型可以保持与原始模型相似的参数计数和计算复杂度。基于我们的频域模型，我们提出了一个CB432117431x1转换器，2563x3Conv，641x1转换器，643x 3最大池，/27x7conv，64，/2RGB：224x224x3DCT：56x56x64图3：将频域中的预处理输入特征连接到ResNet-50。vanilla ResNet-50中的三个输入层（灰色虚线块）被删除，以允许56 <$56 <$64DCT输入。我们以64频道为例。此值可能会因通道选择而异。在基于学习的信道选择中，分析所有192个信道对准确度的重要性，基于此，仅在静态选择方法中使用子集（约192基于学习的通道选择方法，以探索给定CNN模型的频谱偏差，即哪些频率分量对随后的推断任务更有信息性。研究结果促使我们修剪平凡的频率分量的推理，这显着减少了输入数据的大小，从而降低域转换的计算复杂度和所需的通信带宽，同时保持推理精度。3.1. 频域数据预处理流程如图2所示。我们遵循空间域中的预处理和增强流程，包括图像缩放、裁剪和翻转（图2中的然后，图像被变换到YCbCr颜色空间并转换到频域（图2中的DCT变换）。相同频率的二维DCT系数被分组到一个通道中以形成三维DCT立方体（图2中的DCT整形）。如将在第3.2节中讨论的，选择影响力频率通道的子集（图2中的DCT通道选择这个...在YCbCr颜色空间上进行DCT变换，我们将所有8 × 8块中相同频率的分量分组到一个通道中，保持它们在每个频率上的空间关系因此，Y、Cb和Cr分量中的每一个提供8×8=64个通道，每个频率一个通道，在频域中总共192个通道假设原始RGB输入图像的形状是H<$W<$C，其中C= 3，并且图像的高度和宽度分别表示为H和W。在转换到频域之后，输入特征形状变为H/8W/8 64C，其保持相同的输入数据大小。由于频域中的输入特征映射在H和W维度上较小，但在C维度上大于空间域对应物，因此我们跳过了传统CNN模型的输入层，其通常是步幅2卷积。如果最大池化运算符立即跟随输入卷积（例如，，ResNet-50），我们也跳过max-pooling操作符。然后，我们调整下一层的信道大小以匹配频域中的信道数量如图3所示。通过这种方式，我们最小限度地调整现有的CNN模型，以接受频域特征作为输入。在图像分类任务中， CNN 模型通常采用形状224×224×3的输入特征，该特征通常是从具有高得多的分辨率的图像中下采样的。当在频域中执行分类时，可以将更大的图像作为输入。以ResNet- 50为例，频率域中的输入特征连接到第一个残差块，通道的BER调整为192，形成形状为56 <$56 <$192的输入特征，如图2所示也就是说，从大小为448×448×3的输入图像进行DCT变换，其在空间域中保留的信息是224 × 224 × 3对应图像的四倍，代价是输入特征大小的四倍类似地，对于模型MobileNetV 2，输入要素形状为112<$112<$192，由大小为896<$896<$3的图像重新整形。如第3.3节所述，大多数频道可以通过以下方式进行修剪牺牲准确性。频率通道修剪操作被称为DCT通道选择图2。YCbCr颜色空间中的选定通道连接在一起以形成一个张量（图2中的DCT连接张量1张量5最后，通过从训练数据集计算的均值和方差来归一化每个频率信道图2中的DCT整形操作将二维DCT系数分组为三维DCT立方体。由于JPEG压缩标准使用8位/8位图4：生成二进制deci基于由SE块提取的特征的选择Tensor 5的白色通道表示双通道。1x1xC1x1xC1x1xCx2张量2张量3张量4Gumbel样本WHCW CH432117443.2. 基于学习的频率信道选择由于输入特征的不同通道处于不同的频率，我们推测一些频率通道对后续任务（例如图像分类、对象检测和实例分割）的信息量较少，并且去除平凡频率通道不应导致性能下降。因此，我们提出了一种基于学习的信道选择机制，以利用每个输入频率信道的相对重要性。我们采用了一个动态门模块，分配一个二进制得分到每个频率通道。突出信道被评定为1，其他信道被评定为0。具有零分数的输入频率信道从网络分离因此，输入数据大小减小，导致域变换的计算复杂度和通信带宽要求减小所提出的门模块是简单的，可以应用于在线推理的模型的一部分图4详细描述了我们提出的门模块。输入的形状为W<$H<$C（本文中C=192），具有C个频率通道（图4中的张量1它首先通过平均池化转换为图4中形状11C的张量2然后，它被1×1卷积层转换为图4中形状为1 ×1×C的张量3从张量1到张量3的转换与一个两层的挤压和激励块（SE块）[32]，它利用通道信息来强调信息特征并抑制平凡特征。然后，通过将张量3中的每个元素乘以两个可训练参数，将张量3转换为图4中形状1<$1<$C<$2的张量4。在推断期间，张量4中的192个通道中的每个通道的两个数字被归一化，并用作被采样为0或1的概率，然后逐点乘以输入频率通道以获得图4中的张量5。举个例子，如果张量4中第i个通道中的两个数字是7。5和2. 5，第i个门关断的概率为75%换句话说，张量5中的第i个频率通道75%的时间都是零，这有效地阻止了该频率通道被用于推断。我们的门模块在两个方面不同于传统的SE块。首先，所提出的门模块输出维度为11C2的十元数，其中最后一个维度中的两个数字分别描述每个频率信道的开启和关闭概率。因此，我们添加另一个1×1卷积层进行转换。第二，乘以每个频率信道的数目是0或1，即使用频率或不使用频率的二元决策。通过对伯努利分布Bern（p）进行采样来获得决策，其中p由上述1<$1<$C<$2张量中的2个数字计算。所提出的门模块中的挑战之一是伯努利采样过程在需要更新门模块中的权重的[33，34，35]提出了一种称为Gumbel Softmax技巧的重新参数化方法，该方法允许梯度通过离散采样过程反向传播（参见图4中的Gumbel样本）。设x=（x1，x2，. ..，xC）是CNN模型的频域（C= 192）中的输入通道。令F表示所提出的门模块，使得对于每个频率信道xi，F（xi）2 {0，1}。则选择xi，如果F （ xi ） =0 ，即， F （ xi ） xi6=0 ，（1）其中是逐元素乘积。我们在损失函数中加入一个正则化项，平衡所选择的频率信道的数量，该数量与交叉熵损失或其他与精度相关的损失一起被最小化。因此，我们的损失函数如下：XCL=LAcc+λ·F（xi），（2）i=1其中LAcc是与准确度相关的损失。λ是指示正则化项的相对权重的超参数。3.3. 静态频率信道选择基于学习的信道选择提供每个频率信道的重要性的动态估计，即，不同的输入图像可以具有被激活的频率信道的不同子集为了理解频率通道激活的模式，我们绘制了两个热图，一个在分类任务上（图5a），一个在分割任务上（图5b）。每个框中的数字指示信道的频率索引，其中较低和较高索引分别指示较低和较高频率热图值指示频率信道被选择用于跨所有验证图像的推断的可能性。根据图5所示热图中的模式，我们进行了几项观察：• 低频信道（具有小索引的框）比高频信道（具有大索引的框）更频繁地被选择。这表明，对于视觉推理任务，低频通道比高频通道提供的信息• 亮度分量Y中的频率通道比色度分量Cb和Cr中的通道更经常地被选择这表明亮度分量对于视觉推断任务来说信息量更大• 热图在分类和分割任务之间共享共同的模式。这表明，上述两个观察结果并不特定于一个任务，并且很可能普遍适用于更高级别的视觉任务。43211745Y Cb Cr(a) ImageNet验证数据集上Y、Cb和Cr分量的热图Y Cb Cr(b) COCO验证数据集上Y、Cb和Cr分量的热图图5：ImageNet验证数据集（用于图像分类）和COCO验证数据集（用于实例分割）上输入频率通道的热图可视化每个正方形中的数字表示对应的信道索引。从亮到暗的颜色指示从低到高选择通道的可能性• 有趣的是，一些较低频率信道具有比稍高频率信道更低的被选择概率。例如，在Cb和Cr分量中，两个任务都倾向于通道6和9而不是通道5和3。这些观察结果意味着CNN模型可能确实表现出与HVS相似的特性，并且图像压缩标准（例如，、JPEG）也可以适用于CNN模型JPEG压缩标准将更多的位放到低频和亮度分量。遵循相同的原理，我们静态地选择较低频率通道，其中亮度分量比色度分量更重要这确保了具有较高激活概率的频率通道被馈送到CNN模型中。剩余的频率信道可以由图像编码器或解码器修剪，以减少所需的数据传输带宽和输入数据大小。4. 实验结果我们对三种不同的高级视觉任务进行了基准测试：图像分类、检测和分割。4.1. 图像分类实验设置我们使用ImageNet 2012大规模视觉识别Chal对我们的方法进行了图像分类基准长期数据集（ILSVRC-2012）[36]。我们使用随机梯度下降（SGD）优化器。 SGD的初始学习率为0。1，动量为0。9，重量衰减为4 e-5。我们选择ResNet-50[37]和Mo-bileNetV 2 [38]作为CNN模型，因为它们包含重要的构建块（例如，残差块和深度可分离卷积）广泛用于现代CNN模型中请注意，我们的方法通常可以应用于任何CNN 模型。我们训练了210和150个epoch，并将学习率衰减为0。ResNet-50和MobileNetV2分别每50个epoch1次为了归一化输入通道，我们分别计算所有训练图像上的192个频率通道中的每个频率如第3.1节所述，频域中的输入特征是从具有比空间域对应物高得多的分辨率的图像生成的然而，ImageNet数据集中的一些图像分辨率较低我们执行与空间域类似的预处理步骤，包括调整大小和裁剪到更大的图像尺寸，在需要时执行上采样4.2. 图像分类实验结果我们使用第3.2节中描述的方法在图像分类任务上训练具有192个频率通道输入的ResNet-50模型。用于通道选择的门模块与ResNet-50模型一起训练。图5a示出了根据本发明的实施例的选择结果的热图。43211746表1：ImageNet上的ResNet-50分类结果（验证）。每个方法的输入大小都在基线ResNet-50上进行了归一化。如果后缀S和T被指定，则输入频率信道分别用方形和三角形信道选择模式来选择。RGB3224⇥22475.78092.6501.0YCbCr3224⇥22475.23492.5441.0DCT-192 [17]19228⇥2876.06093.0201.0DCT-192（我们的）19256⇥5677.19493.4544.0DCT-24 D（我们的）2456⇥5677.16693.5600.5DCT-24 S（我们的）2456⇥5677.19693.5040.5DCT-24 T（我们的）2456⇥5677.14893.3260.5DCT-48 S（我们的）4856⇥5677.38493.5541.0DCT-48 T（我们的）4856⇥5677.33893.6141.0DCT-64 S（我们的）6456⇥5677.23293.6241.3DCT-64 T（我们的）6456⇥5677.28093.4561.3表2：MobileNetV2在ImageNet上的分类结果（验证）。MobileNetV2通道数每通道Top-1Top-5归一化输入大小RGB3224⇥22471.70290.4151.0DCT-6S（我们的）6112⇥11271.77690.2580.5DCT-12 S（我们的）12112⇥11272.15690.6341.0DCT-24 S（我们的）24112⇥11272.36490.6062.0DCT-32 S（我们的）32112⇥11272.28290.5922.7验证集λ =0。1.一、注意，不同的正则化参数λ在热图中生成不同数量的激活频率信道图5a中显示了一个典型示例，大多数通道（≥80%）被选中的可能性非常低（3%）观察到低频通道在热图中更重要，我们探索了所选通道的精确形状的敏感性在表1中，DCT-24 D显示了24（14+5+5）通道时的准确性，精确地选择基于图5a中的动态选择的结果。相比之下，DCT-24 T和DCT-24 S显示了当Y、Cb、Cr分量的总共24个通道分别接近左上三角形和top-1精度的变化几乎可以忽略不计，所有这些都比基线ResNet- 50高出大约1。百分之四这表明所提出的频域学习的益处可以应用于许多任务，只要选择大多数低频通道。请注意，输入数据大小仅为基线ResNet-50的一半。由于DCT-24 S提供了稍微好一点的结果，剩余的静态选择是基于靠近左上方正方形的部分（一些右下通道可能丢失）。类似地，我们为DCT-48 S/T选择顶部（32，8，8）通道，为DCT-64 S/T选择顶部（44，10，10）通道ImageNet数据集上的结果显示在表1中，同时选择了所有192个频率通道。特别是，与基线ResNet-50相比，top-1精度提高了1。4%使用所有频道。还应注意，当输入从RGB转换为YCbCr颜色空间（两者都在空间域中）大约为0。5%，并且我们的方法（在频域中）在YCbCr情况下的改进甚至更大。另一个有趣的观察结果是，使用通道子集训练的模型可能比使用所有192个通道训练的模型表现更好这种反直觉的观察暗示了少量（例如，24)低频信道的频率分量足以捕获有用的特征，并且附加的频率分量可能引入噪声。使用Mo-bileNetV 2作为基线CNN模型进行类似的实验，结果示于表2中。注意，DCT-12S和DCT-6S选择12和6个频率信道，并且输入数据大小为分别是基线MobileNetV2的一半和一半DCT-12 S和DCT-6S的前1位精度提高了0。454%和0。074%。top-1精度提高0. 662%和0。580%，通过选择32和24频率通道，分别。4.3. 实例分割我们在包含约118k图像的COCO train2017分割上训练我们的模型，并在包含5k图像的val2017分割上进行评估。我们评估边界框（bbox）的平均精度（AP）的对象检测任务和掩模AP的实例分割任务。基于Mask R-CNN [39]，我们的模型由第4.1节中介绍的频域 ResNet-50 模型和特征金字塔网络[40] 组成频域ResNet-50模型通过边界框识别头和掩码预测头进行ResNet-50#通道每通道前 5名归一化输入大小43211747微调输入图像的大小调整到最大值43211748表3：在COCO 2017验证集上使用不同主干的Mask R-CNN的Bbox AP结果基线Mask R-CNN使用ResNet-50-FPN作为主干。DCT方法使用频域ResNet-50-FPN作为骨干。骨干通道数每通道bboxAPAP@0.5AP@0.75APSAPMAPLResNet-50-FPN（RGB）3800⇥133337.359.040.221.940.948.1DCT-24 S（我们的）24200⇥33437.759.240.921.741.449.1DCT-48 S（我们的）48200⇥33438.159.541.222.041.349.8DCT-64 S（我们的）64200⇥33438.159.641.122.541.649.7表4：在COCO 2017验证集上使用不同主干的Mask R-CNN的Mask AP结果骨干通道数每通道掩模APAP@0.5AP@0.75APSAPMAPLResNet-50-FPN（RGB）3800⇥133334.255.936.215.836.950.1DCT-24 S（我们的）24200⇥33434.656.136.916.137.450.7DCT-48 S（我们的）48200⇥33435.056.637.216.337.552.3DCT-64 S（我们的）64200⇥33435.056.537.416.937.651.6比例为1600<$2666，而不改变纵横比。相应的DCT系数的最大大小为200334，将其输入ResNet-50-FPN[40]进行特征提取。我们训练我们的网络20个时期，初始学习率为0。0025，在16和19个时期后下降了10 μ m其余配置遵循MMDetection [41]的配置。在表3和表4中，我们报告了AP度量，该AP度量将AP在IoU阈值上的平均值从0. 五比零。95，间隔为0。05.评估bbox AP和掩码AP两者。对于掩码AP，我们还在IoU 阈值0处报告AP@0.5和AP@0.75。5和0。75，以及APS，APM和APL在不同尺度上。4.4. 实例分割我们使用频域中的192通道输入来训练我们的MaskR-CNN模型，例如分割。用于动态通道选择的门模块与整个Mask R-CNN一起训练。图5b示出了动态选择的热图。我们仅使用前24、48和64个高概率频率信道进一步训练我们的模型。我们的方法在不同情况下的bbox和mask AP分别在表3和表4中报告实验结果表明，我们的方法在输入数据大小相等（DCT-48 S）或更小（DCT-24 S）的情况下都优于基于RGB的 Mask具体而言，24通道模型（DCT-24 S）实现了0. 与基于RGB的Mask R-CNN基线相比，在bbox AP和mask AP中均为4，输入数据大小为一半图6直观地示出了在频域中训练并执行推断的MaskR-CNN模型的分割结果。图6：COCO数据集上的实例分割结果示例5. 结论在本文中，我们提出了一种在频域中学习的方法，并证明了它的通用性和优越性的各种任务，包括分类，检测和分割。我们的方法对现有的采用RGB输入的CNN模型几乎不需要修改，因此可以普遍应用于现有的网络训练和推理方法。我们表明，在频率域中的学习更好地保留图像信息的预处理阶段比传统的空间下采样方法，从而实现了改进的准确性。我们提出了一种基于学习的动态信道选择方法，并实证表明CNN模型对低频信道比高频信道更敏感实验结果表明，该算法可以修剪87。5%的频率通道使用所提出的通道选择方法，而在分类、对象检测和实例分割任务中没有或几乎没有准确度降级。谢谢。亚利桑那州立大学的这项工作得到了美国国家科学基金会的资助（IIS/CPS-1652038）。43211749引用[1] A.克里热夫斯基岛Sutskever和G. E·辛顿使用深度卷积神经网络的 Im-agenet 分类。 NIPS ， 2012年。[2] A. Karpathy，G.Toderici、S.Shetty，T.良河，巴西-地Suk-thankar和L.飞飞使用卷积神经网络进行大规模视频CVPR，2014。[3] S. Ren，K.赫利河Girshick和J.太阳更快的r-cnn：用区域投影网络进行实时目标检测。2015年，在NIPS[4] J.雷德蒙，S.迪夫拉河，巴西-地Girshick和A.法哈迪。你只看一次：统一的实时物体检测。在CVPR，2016年。[5] J. Long，E.Shelhamer和T.达雷尔。用于语义分割的全卷积网络CVPR，2015。[6] L. Chen，Y. Zhu，G.帕潘德里欧F. Schroff和H.Adam.编码器-解码器与atrous可分离卷积的语义图像分割。在ECCV，2018。[7] O.鲁萨科夫斯基Deng， H.苏，J.克劳斯，S.萨特伊什妈Z。Huang，黄背天蛾A.卡帕西A. 科斯拉，M.伯恩斯坦，A. Berg和L.飞飞ImageNet大规模视觉识别挑战。InIJCV，2015.[8] Y.裴，Y.黄角，澳-地Zou，X. Zhang和S.王.图像退化及退化去除对 cnn 图像分类的影响在TPAMI，2019年。[9] H.金，M。崔湾，巴西-地Lim和K.李你任务感知图像缩小。在ECCV，2018。[10] F. Saeedan，N.韦伯，M。Goesele和S.罗斯深度网络中的细节保留池在CVPR，2018年。[11] J.Kim和S.李你图像质量评估框架中人类视觉敏感度的深度学习在CVPR，2017年。[12] X. Wei，Y.Liang，P.Zhang C.，中国古猿科Yu和J.Cong. 通过层意识内存管理克服dnn加速器中的数据传输瓶颈。在FPGA中，2019年。[13] Y. 你 Z Zhang C. ，中国古猿科 Hsieh ， J.Demmel，and K.库茨Imagenet训练在几分钟内。在ICPP，2018年。[14] R. T或fason，F. Mentze r，E. A'gu' stsson，M. 昌嫩河Timofte和L.好极了从深度压缩到无解码的图像理解在ICLR，2018年。[15] K. XU、Z. Zhang和F.仁Lapran：一个可扩展的拉普拉斯金字塔重构对抗网络用于灵活的压缩感测重建。在ECCV），2018年。[16] C. Wu ， M. Zaheer ， H. 胡河，巴西 - 地Manmatha，A. Smola和P. Kr aühenbuühl 。压缩视频动作识别。在CVPR，2018年。[17] L. Gueguen，A.，B、R. Liu，and J. Yosinski.更快的神经网络直接从jpeg。在NIPS，2018年。[18] M. Ehrlich和L.戴维斯JPEG变换域中的深度残差学习。在ICCV，2019年。[19] A. Veit和S.贝隆吉具有自适应推理图的卷积网络在ECCV，2018。[20] X. Wang，F.Yu，Z.Dou，T.Darrell和J.Gonzalez.Skipnet ：学习卷积网络中的动态路由。在ECCV，2018。[21] Q. Guo，Z.Yu，Y.Wu，D.Liang，H.Qin和J.燕.动态递归神经网络。在CVPR，2019年。[22] Z. Wu，T.Nagarajan，A.库马尔，S。伦尼湖戴维斯K. Grauman和R.费里斯Blockdrop：剩余网络中的动态干扰路径在CVPR，2018年。[23] Z. Chen，Y. Li，S. Bengio和S. Si.你看了两遍：用于cnns中动态过滤器选择的门网。在CVPR，2019年。[24] J. Frankle和M.卡宾彩票假说：寻找稀疏的、可训练的神经网络。2019年，在ICLR[25] P. Molchanov，A. Mallya，S.泰里岛弗罗西奥，以及J. Kautz神经网络剪枝的重要性估计。在CVPR，2019年。[26] K. Wang ， Z. Liu ， Y. Lin ， J. Lin ， and S. 韩Haq ：混合精度的硬件感知自动量化。在CVPR，2019年。[27] S.汉，H. Mao和W. Dally深度压缩：使用压缩、训练量化和霍夫曼编码压缩深度神经网络。ICLR，2016.[28] W. 陈，J.威尔逊，S。Tyree，K.Weinberger和Y.尘在频域中压缩卷积神经网络InKDD，2016.[29] Y. Wang，C. Xu，C. Xu，和D.涛.频域中的打包卷积神经网络。TPAMI，2019。[30] A. Dziedzic ， J. 帕帕里索斯岛 Krishnan ， A.Elmore和M.富兰克林卷积神经网络的带限训练和在ICML，2019。[31] A. Lavin和S.格雷卷积神经网络的快速算法。在CVPR，2016年。43211750[32] 胡杰湖，澳-地Shen和G.太阳压缩-激励网络。在CVPR，2018年。43211751[33] E.张，S. Gu和B.浦耳使用gumbel-softmax进行分类重命名。在ICLR，2017。[34] G. Tucker，A.姆尼赫角Maddison，J. Lawson和J.索尔-迪克斯汀Rebar：离散潜变量模型的低方差无偏梯度估计。在NIPS，2017年。[35] C. Maddison，A.Mnih和Y.茶具体离散：离散随机变量的连续松弛在ICLR，2017。[36] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞ImageNet：一个大规模的分层图像数据库。CVPR，2009。[37] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在CVPR，2016年。[38] M. Sandler，A.Howard，M.Zhu，中国茶青冈A.Zhmoginov和L. 尘 Mobilenetv2 ：反演残差和线性瓶颈。在CVPR，2018年。[39] K. 他，G. Gkioxari，P. Doll a'r和R. 娘娘腔。面具R-CNN。InICCV，2017.[40] T. Lin，P.多尔河格希克角他，B.Hariharan和S.贝隆吉用于目标检测的特征金字塔网络。在CVPR，2017年。[41] K. 陈，J.Wang，J.庞湾，澳-地Cao，Y.Xiong，X.Li ， S. 太阳， W 。冯， Z. Liu ， J. Xu ， Z.Zhang ， L. 程角，澳 - 地 Zhu ， T. 成角，澳 - 地Zhao，B.Li，X.卢河，巴西-地Zhu，Y.吴先生，J. Dai，J. Wang，J.施，W。欧阳C. Loy和D.是林书MM检测：打开mmlab检测工具箱和基准测试。ArXiv：1906.07155，2019。

下载后可阅读完整内容，剩余1页未读，立即下载