倍频卷积：降低CNN的空间冗余度

170 浏览量更新于2023-10-12 收藏 819KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1降低一个八度：利用倍频卷积减少卷积神经网络的空间冗余度Yunpeng Chen<$$>，Haoqi Fan<$ $>，Bing Xu <$$>，Zhicheng Yan<$，Yannis Kalantidis<$，Marcus Rohrbach<$，ShuichengYan陈水成，Jiashi Feng冯佳†Facebook AI、新加坡国立大学、亿图科技摘要在自然图像中，信息以不同的频率传递，其中较高的频率通常用精细细节编码，而较低的频率通常用全局结构编码。类似地，卷积层的输出特征图也可以被视为信息的混合，（a）分离低空间频率信号和高空间频率信号[1，10]。在不同的频率下。在这项工作中，我们提出了因式分解的混合特征映射的频率，并设计了一个新的八倍卷积（OctConv）operation- tion1存储和处理的特征映射，空间变化与现有的多尺度冰毒不同，低频高频低频高频信息更新信息交换ods中，OctConv被制定为一个单一的，通用的，即插即用的，（b）第（1）款（c）第（1）款（d）其他事项播放卷积单元，其可以用作（普通）卷积的直接它也是正交的和复杂的方法，建议更好的拓扑结构或减少通道的冗余，如组或深度卷积。我们的实验表明，通过简单地用OctConv替换卷积，我们可以始终如一地提高图像和视频识别任务的准确性，同时降低内存和计算成本。配备OctConv的ResNet-152可以在ImageNet上实现82.9%的top-1分类准确率，仅需22.2 GFLOP。1. 介绍卷积神经网络（CNN）的效率随着最近减少密集模型参数中固有冗余的努力而不断提高[15，31，42]以及特征图的通道维度[47，18，6，9]。然而，在由CNN产生的特征图的空间维度中也存在大量冗余，其中每个位置独立地存储其自己的特征描述符，同时忽略可以一起存储和处理的相邻位置之间的公共信息。如图1（a）所示，可以对自然图像进行解码。1https://github.com/facebookresearch/OctConv图1：（a）动机。视觉的空间频率模型[1，10]表明，自然图像可以分解为低空间频率部分和高空间频率部分。(b)卷积层的输出映射也可以通过它们的空间频率进行因式分解和分组。（c）所提出的多频率特征表示将平滑变化的低频图存储在低分辨率张量中以减少空间冗余。(d)所提出的倍频程卷积直接对这种表示进行操作它更新每个组的信息，并进一步实现组之间的信息交换被分成描述平滑变化结构的低空间频率分量和描述快速变化的精细细节的高空间频率分量[1，10，37，39]。同样，我们认为卷积层的输出特征图也可以分解为不同空间频率的特征，并提出了一种新的多频率特征表示，将高频和低频特征图存储到不同的组中，如图1（b）所示。因此，如图1（c）所示，通过在相邻位置之间共享信息以减少空间冗余，可以安全地降低低频组的空间分辨率。为了适应新的特征表示，我们推广了香草卷积，并提出了八度卷积（OctConv），34353436接收包含相隔一个倍频程的两个频率的张量的特征图，并直接从低频图中提取信息，而不需要将其解码回高频，如图1（d）所示。作为普通卷积的替代品，OctConv 消耗的内存和计算资源显著减少 . 此外，OctConv对低频信息进行相应的（低频）卷积处理，有效地扩大了原始像素空间的感受野，从而提高了识别性能。我们以通用的方式设计OctConv，使其一个即插即用的替代品。由于OctConv主要关注在多个空间频率下处理特征图并减少其空间冗余，因此它与专注于构建更好的CNN拓扑[22，41，35，33，29]的执行方法正交和互补，从而减少通道冗余在卷积特征映射[47，9，34，32，21]和重新-在密集模型参数中引入冗余[42，15，31]。此外，与利用多尺度信息的方法不同[4，43，12]，OctConv可以很容易地部署为即插即用单元来取代卷积，而不需要改变网络架构或需要超参数调整。与密切相关的多网格卷积[25]相比，OctConv在基于频率模型减少CNN中的空间冗余方面提供了更多见解，并采用了性能更好的更有效的频率间信息交换策略我们进一步将OctConv集成到各种各样的骨干架构中（包括具有组，深度和3D卷积的架构），并展示OctConv的通用性。我们的实验表明，通过简单地用OctConv替换香草卷积，我们可以始终如一地提高流行的2D CNN主干的性能，包括ResNet [16，17]，ResNeXt [47]，DenseNet[22] ， MobileNet [18 ， 34] 和 SE-Net [19] 在 ImageNet[ 11 ]上的2D图像识别，以及3D CNN主干C2 D [44]和I3 D [44]关于Kinetics上的视频动作识别[24，3，2]。配备OctConv的Oct-ResNet-152可以以更低的内存和计算成本匹配或优于最先进的手动设计网络[32，19]我们的贡献可归纳如下：• 我们建议将卷积特征映射分解为不同空间频率的两组，并在相应的空间频率上使用不同的卷积来频率，相隔一个八度。由于低频图的分辨率可以降低，这节省了存储和计算。这也有助于每一层获得更大的接受域，以捕获更多的上下文信息。• 我们设计了一个名为OctConv的即插即用操作来取代vanilla卷积，以便在新特征直接表示，减少空间重构，冗余重要的是，OctConv在实践中速度很快，并且实现了接近理论极限的加速比。• 我们广泛研究了所提出的Oct- Conv在各种骨干CNN上的图像和视频特性任务，并实现显着的性能增益，甚至可以与最好的AutoML网络相媲美。2. 相关工作提高CNN的效率。自从AlexNet [26]和VGG [35]上的pion-neering工作以来，研究人员已经做出了大量努力来提高CNN的效率。ResNet [16，17]和DenseNet [22]通过向早期层添加快捷连接来改进网络拓扑。ResNeXt [47]和ShuffleNet [49]使用稀疏连接的群卷积来减少通道间连接的冗余。Xception [9]和MobileNet[18，34]采用了深度卷积，进一步降低了连接密度。与此同时，NAS [51]，PNAS [29]和AmoebaNet [33]提出为给定任务原子地找到最佳网络拓扑。修剪方法，如DSD [15]和ThiNet [31]，专注于通过消除CNN中最不重要的权重或连接来减少模型参数中的冗余。此外，Het-Conv [36]提出用不同大小的异构卷积滤波器代替普通卷积滤波器。然而，所有这些方法都忽略了对特征图的空间维度的重新定义，这由所提出的OctConv解决，使得OctConv与这些先前的方法正交和互补。值得注意的是，OctConv不会改变特征图之间的连接性，使其也不同于类似于inception的多路径设计[41，40，47]。多尺度表示学习。在深度学习成熟之前，多尺度表示长期以来一直被应用于局部特征提取，例如SIFT特征[30]。在深度学习时代，多尺度表示由于其强大的鲁棒性和泛化能力，语义也扮演着重要的角色。FPN [27]和PSP [50]在网络的末端合并来自不同深度的卷积特征，用于对象检测和分割任务。MSDNet [20]和HR-Nets [38]提出了精心设计的网络架构，其中包含多个分支，每个分支都有自己的空间分辨率。bL-Net [4]和ELASTIC-Net [43]采用类似的思想，但被设计为ResNet [16，17]的残差块的替代，因此更灵活，更易于使用。但是，当将它们应用于ResNet之外的架构（如MobileNetV1 [18]，DenseNet[22]）时，仍然需要额外的专业知识和超参数调整。多网格CNN [25]提出了一种多网格金字塔特征表示，并将MG-Conv算子定义为卷积算子的替代，这在概念上与我们的方法相似，但其动机是利用多网格特征。3437i+，j+222 2 22尺度特征与MG-Conv相比，OctConv采用了更高效的设计来交换频率间信息，性能更高，如第2.2节所述3.3和Sec. 四点三。对于视频模型，最近提出的慢-快网络[12]在时间维度上引入了多尺度路径。正如我们在4.4节中所展示的，这是对OctConv的补充，OctConv对空间维度进行操作。简而言之，OctConv专注于减少CNN中的空间冗余，旨在取代普通卷积运算，而无需调整骨干CNN架构。我们在方法和实验部分将OctConv与密切相关的方法进行了广泛的比较，并表明OctConv CNN在许多具有挑战性的基准测试中给出了最佳结果3. 方法在本节中，我们首先介绍倍频程特征表示，然后描述直接对其进行操作的倍频程卷积。我们还讨论了执行-3.2.倍频程卷积第3.1节中提出的倍频程特征表示减少了空间冗余，并且比原始表示更然而，由于输入特征中的空间分辨率的差异，香草卷积不能直接对这样的表示进行一种避免这种情况的简单方法是将低频部分Xl上采样到原始空间分辨率，将其与Xh连接，然后卷积，这将导致计算和存储器的额外成本，并减少压缩的所有节省。为了充分利用我们紧凑的多频特征表示，我们引入了Octave卷积，它可以直接对因子分解张量X={XH，XL}，而不需要任何额外的计算或内存开销。香草卷积。设 W∈Rc×k×k 表示 k×k 卷积核， X ，Y∈Rc×h×w分别表示输入和输出张量Yp，q∈Rc中的每个特征图可以通过以下公式计算：尾并展示如何将OctConv集成到组中，深度卷积架构。ΣYp，q=Wk−1k−1<$Xp+i，q+j、（1）3.1. 倍频程特征表示对于普通卷积，所有输入和输出特征图具有相同的空间分辨率，这可能是不必要的，因为一些特征图可以表示低频信息，其是空间冗余的并且可以如图1所示进一步压缩。为了减少空间冗余，我们引入了八度特征表示，该特征表示将特征图张量显式分解为对应于低频率和高频率的组标度空间理论[28]为我们提供了一种创建空间分辨率标度空间的原则性方法，并将八度音阶定义为空间维度除以2的幂（我们在这项工作中仅探索21我们遵循这种方式，并降低空间分辨率的低频特征映射一个倍频程。形式上，令X∈Rc×h×w表示卷积层的输入特征量，其中h和w表示空间维度，c表示特征映射或变化的数量nels。我们沿着通道维度将X显式分解为X={XH，XL}，其中高频特征图XH∈R（1−α）c×h×w捕获精细细节，低频图XL∈Rαc×h×w在空间上变化较慢。2 2i，j∈Nk其中，（p，q）表示位置坐标，并且Nk={ （ i ， j ）： i ={−k−1 ， . . . ， k-1} ， j ={-k-1，. . . ，k−1}}定义了一个局部邻域。为了简单起见，在所有平等-在省略填充的情况下，假设k是奇数，并且输入和输出数据具有相同的维数，即，cin=cout=c。倍频程卷积。我们设计的目标是有效地处理低频和高频在其相应的频率张量，但也使有效的频率间通信。设X，Y为分解后的输入输出张量.然后将给出输出Y={YH，YL}的高频和低频特征图通过YH=YH→H+YL→H和YL=YL→L+YH→L，其中，YA→B表示卷积向上，从特征图组A到组B的日期。具体地，YH→H、YL→L表示频率内更新，而YH→L、YL→H表示频率间通信。为了计算这些项，我们将卷积核W分成两个分量W=[WH，WL]，分别负责与XH和XL卷积。每个分量可以进一步分为帧内和帧间。尺寸（w.r.t. 图像位置）。这里α∈[0，1]表示分配给低频的信道的比率部分，并且低频特征图被定义为比高频特征图低的倍频程，即，空间分辨率的一半，如图1（c）所示。在下一小节中，我们将介绍一种卷积运算器，它直接对这种多频率特征表示进行运算，并将其命名为Octave Convolution（OctConv）。频率部分：W H=[W H→H，W L→H]和W L=[W L→L，WH→L]，参数张量形状如图2（b）所示。特别是对于高频特征图，我们通过使用用于频率内更新的常规卷积在位置（p，q）处计算它，并且对于频率间更新，使用常规卷积在位置（频率通信，我们可以将特征张量XL上的上采样折叠到卷积中，消除了显式计算和存储上采样的需要。3438XLX(a) 倍频程卷积的详细设计。绿色箭头对应于信息更新，而红色箭头促进两个频率之间的信息交换。(b) Octave Convolution内核 k × k倍频程卷积核W∈Rcin×cout×k×k等价于普通卷积核，因为两者具有完全相同的参数数。图2：倍频程卷积。我们在整个网络中设置αin=αout=α，除了网络的第一个和最后一个OctConv，其中αin=0，αout=α和αin=α，αout=0。特征图如下：YH =YH→H+YL →Hk×k卷积核，结果有效地扩大了感受野的2倍，p，qp，qΣ=p，qH→Hi+k−1，j+k−1⊤Hp+i，q+j香草卷积这进一步帮助每个OctConv层从远处捕获更多上下文信息2 2i，j∈NkΣL→Hi+k−1，j+k−1⊤X（p+i），（q+j），（二）并且可以潜在地提高识别性能。3.3.实现细节2 22 2i，j∈Nk其中，n·n表示地板操作。类似地，对于低频特征图，我们使用常规卷积计算频率内更新请注意，由于地图在低一个八度音中，卷积也是低频的w.r.t.高频坐标空间。对于频率间通信，我们可以再次将特征张量XH的下采样折叠到卷积中，如下所示：YL =YL→L+YH →L如前一小节所讨论的，索引{（2）p+0. 5+i），（2q+0. 5+j）}必须是等式的整数。3 .第三章。而不是四舍五入到{（2 <$p + i），（2 <$q + j）}，即用步长2进行卷积以进行下采样，我们采用平均池化来获得更精确的近似。这有助于缓解汇总不同尺度信息时出现的不一致，如附录A所示。附录C.我们现在可以重写使用平均池化进行下采样的倍频程卷积的输出Y={YH，YL}为：p，qp，qΣ=p，qL→Li+k−1，j+k−1⊤Lp+i，q+jYH=f（XH;WH→H）+上采样（f（XL;WL→H），2）i，j∈NkΣ+22WH→LXHYL=f（XL;WL→L）+f（pool（XH，2）;WH→L）），、（四）i+k−1，j+k−1（2p+0. 5+i），（2q+0. 5+j）2 2i，j∈Nk（三）其中f（X;W）表示与参数W的卷积，pool（X，k）是一个平均的池化操作，其中，将因子2乘以位置（p，q）执行下采样，并且进一步将位置移位半步是为了确保下采样的映射与输入很好地对准。然而，由于XH的索引只能是一个整数，我们可以将索引x舍入为（2p+i，2q+j）或近似值为（2 p +0. 5+ i，2 * q +0。5+j）通过平均所有4个相邻位置。第一个也是第一个称为跨步卷积，第二个称为平均池化。正如我们在第3.3节和图中所讨论的那样？？跨卷积导致失准;因此，我们使用平均池来近似该值，用于本文的其余部分。倍频程卷积的一个有趣且有用的特性是低频特征图的感受野更大。将低频部分XL与k×k和步长k。 upsample（X，k）是上采样运算，通过最接近的插值，以kOctConv运算符实现的细节如图2所示。它由四个计算路径组成，对应于等式2中的四个项（4）两条绿色路径对应于高频和低频特征图的信息更新，两条红色路径促进两个八度之间的信息交换。组卷积和深度卷积。Octave卷积也可以用于其他流行的vanilla卷积变体，例如组[47]或深度[18]卷积。对于组卷积的情况，我们简单地将OctConv设计中出现的所有四个卷积操作设置为组卷积。同样，对于深度卷积情况，卷积运算-WWW+3439比值（α）电话：+86-0512 - 8888888传真：+86-0512 -88888888#FLOPs成本百分百百分之八十二百分之六十七百分之四十四百分之三十百分之二十六百分之二十五存储器成本百分百百分之九十一百分之八十一百分之六十三百分之四十四百分之三十五百分之二十五表1：针对低频特征所使用的通道的比率α的不同选择，所提出的多频率特征表示相对于普通特征图的相对理论增益。当α=0时，不使用低频特征，这是香草卷积的情况。分段是深度方向的，因此消除了信息我们注意到，如果我们不压缩低频部分，则组OctConv和深度方向OctConv都减少到它们各自的vanilla版本。效率分析。表1显示了OctConv在vanilla卷积和vanilla特征图表示上的理论计算成本和内存消耗。关于推导表1中给出的理论增益的更多信息可以在补充材料中找到我们注意到理论增益是按卷积层计算的。在第4节中，我们提出了相应的实际收益的真实场景，并表明我们的OctConv实现可以充分近似的理论数字。将OctConv集成到骨干网络中。 OctConv与vanilla卷积向后兼容，可以插入到常规卷积网络中，无需特殊调整。为了将一个普通的特征表示转换成一个多频特征表示，在第一个OctConv层，我们设置αin=0和αout=α。在这种情况下，与低频输入相关的OctConv路径被禁用，从而产生只有两条路径的简化版本为了将多频特征表示转换回普通特征表示，即：在最后一个OctConv层，我们设置αout=0。在这种情况下，与低频输出相关的Oct- Conv路径被禁用，从而产生单个全分辨率输出。与多网格卷积的比较[25]。多网格卷积（MG-Conv）[25]是一种双向和跨尺度卷积算子。虽然概念上相似，但我们的OctConv在核心动机和设计上都不同于MG-Conv。MG-Conv旨在利用现有CNN中的多尺度信息，而OctConv专注于减少相邻像素之间的空间冗余。在设计方面，MG-Conv采用最大池化进行下采样。这需要额外的内存来存储训练过程中最大值的索引，并进一步降低精度（参见附录C）。MG-Conv还首先上采样，然后与放大的特征图卷积。不同的是，OctConv旨在减少空间冗余，是卷积运算的简单扩展。发电机它使用平均池化来提取低频特征，而无需额外的内存成本，其上采样操作遵循卷积，因此比MG-Conv更有效横向路径的精心设计对于OctConv比MG-Conv拥有更多的内存和计算效率并在不增加网络复杂性的情况下提高我们在表4中比较了OctConv和MG-Conv。4. 实验评价在本节中，我们验证了所提出的Octave卷积对2D和3D网络的有效性和效率。我们首先在ImageNet [ 11 ]上展示了用于图像分类的消融研究，然后将其与最先进的方法进行比较。然后，我们使用Kinetics-400 [24，3]和Kinetics- 600 [2]数据集证明了所提出的OctConv也适用于3D CNN。每个类别/区块的最佳结果在整个论文中以粗体字突出显示。4.1. 实验设置图像分类我们在一组最流行的CNN上检查OctConv[18，34，16，17，22，47，19]，用OctConv替换常规卷积（除了最大池化之前的第一个卷积层）。所得到的网络只有一个全局超参数α，它表示低频部分的比例。我们进行了苹果对苹果的比较，并在相同的培训/测试设置下自行重现了所有基线方法，用于内部消融研究。除了MobileNetV 2还采用标签平滑[40]之外，所有网络都使用朴素的softmax交叉熵损失进行训练，最好的ResNet- 152同时采用标签平滑和混合[48]来防止过拟合。与[4]相同，所有网络都是从头开始训练，并通过具有余弦学习率的SGD进行优化[13]。报告了验证集上单中心修剪[16，17，47，4，43]的标准准确度视频动作识别。我们使用 Kinetics-400 [24， 3]和Kinetics-600 [2]进行人体动作识别。我们从膨胀3DConvNet [44]中选择标准基线骨干，并将其与OctConv对比部分进行比较。我们遵循[45]的设置，使用帧长度8作为标准输入大小，总共训练300k次迭代，并在推理时间内对30次裁剪的预测进行平均。为了进行公平的比较，我们在完全相同的设置下报告基线和OctConv的性能。4.2. 基于ImageNet的消融研究我们进行了一系列消融研究，旨在回答以下问题：1 ） OctConv 是否比 vanilla 卷积具有更好的 FLOPs-Accuracy权衡？2）OctConv在哪种情况下效果最好？344010）、8078767411.25 1.5 22.53 4 56789 101214 16浮点数（×9-200比值（α）前1名（%）浮点数（G）推断时间（ms）后端不适用77.0 4.1 119 MKLDNN不适用77.0 4.1 115 TVM.125 78.2 3.6 116 TVM.25 78.0 3.1 99 TVM0.5 77.4 2.4 74 TVM0.75 76.7 1.9 61 TVM表2：ResNet-50的结果。推理时间在2.0 GHz的IntelSkylake CPU上测量（单线程）。我们报告了英特尔（R）深度神经网络数学内核库v0.18.1（MKLDNN）[23] vanila ResNet的推理时间50.由于vanilla ResNet-50经过英特尔的良好优化，因此我们还将MKLDNN结果显示为附加性能图3：ImageNet上的消融研究结果。OctConv配备的模型比基线模型更高效，更准确每行中的黑色标记表示不含OctConv的相应基线模型。有色基线OctConv网络由TVM [5] v0.5编译数字是比率α。 X轴中的数字表示FLOP基线Oct-High-Frequency Group Oct-Low-Frequency Group低→高频率以对数标度。ResNet-50上的结果。我们首先使用流行的ResNet-50[17]作为基线CNN，并用我们提出的OctConv替换常规卷积，以检查触发器精度权衡。特别地，我们改变全局比率α∈ {0。125，0。25，0。5，0。75}以比较图像分类准确度与计算成本（即，[16，17，47，7]与基线。结果如图3中粉色所示。我们提出以下意见。1)触发器精度权衡曲线是一条凹曲线，精度首先上升，然后缓慢下降。2)我们可以看到两个甜蜜点：第一个是α=0。5，即使FLOP减少了大约一半，网络也能得到类似或更好的结果;第二个是α=0。125，网络达到最佳精度，比基线高1.2%（黑圈）。我们将准确性的提高归因于OctConv的而在0.125，精度不会突然下降，但对于较高的比率α缓慢下降，表明降低低频部分的分辨率不会导致显著的信息损失。有趣的是，75%的特征图可以压缩到一半的分辨率，只有0。3%的准确率下降，这证明了分组和压缩平滑变化的特征图以减少CNN中的空间冗余的有效性。在表2中，我们证明了Oct- Conv的理论FLOPs节省也反映在实际的CPU推理时间中。对于ResNet-50，我们接近于获得理论上的FLOP加速。这些结果表明OctConv能够提供重要的实际好处，而不仅仅是在理论上节省FLOPs。图4：不同组中激活图的频率分析。“基线”指的是vanilla ResNet。从ResNet-101（Res 3）中采样10 k个激活图。更多CNN的结果为了进一步检查所提出的OctConv是否适用于具有不同深度/宽度/拓扑的其他网络，我们选择当前最流行的网络作为基线，并重复相同的消融研究。这些网络是 ResNet- （ 26; 50;101;200 ） [17] ，ResNeXt-（50，32 ×4d; 101，32 ×4d）[47]、DenseNet-121 [22][19]第50选择ResNeXt作为-在组卷积上sessing OctConv，而SE-Net [19]用于检查是否找到SE块的增益基于vanilla卷积的网络也可以在OctConv 上看到。如图 3 所示，不同架构的配备OctConv 的网络的行为与 Oct-ResNet-50 相似，其中FLOPs-精度权衡处于凹曲线中，并且性能峰值也出现在比率α=0处。125或α=0。二十五在各种骨干CNN上的一致性能增益证实了OctConv是香草卷积的良好替代品。频率分析图4显示了频率分析结果。我们对每组特征图进行傅里叶变换，并将平均结果可视化。从能量图来看，低频组不包含高频信号，而高频组包含低频和高频信号。这证实了低频组确实如预期地捕获低频信息。请注意，OctConv使高频组能够灵活地存储低频和高频信号，以获得更好的学习能力。摘要1）OctConv可以帮助CNN提高准确性，同时降低FLOP，偏离以较低准确性为代价降低FLOP的其他方法。 2)在测试时，OctConv相对于基线0.1250.25前1位准确度（%）能源0.250.50.20.255 0.1250.50ResNeXt-101ResNet0.500.500.250.250.1250.50.125ResN外- 50Res 净-1010.70.70.750.50SE-RResNesNetET-50-500.750.25000的的的情情情况况况。.122550.1250.06250.50DenseNet-1210.753441方法比值（α）参数数（M）FLOPs（M）CPU（ms）前1名（%）（G=C=8）[21]-2.9274-71.01.5 ShuffleNet（v1）[49]-3.4292-71.51.5[32]第三十二话-3.5299-72.60.75[18]第十八话-2.632513.470.3米0.75 Oct-MobileNet（v1）（我们的）.3752.621311.970.51.0 Oct-MobileNet（v1）（我们的）.54.232118.472.51.0[34]第-3.530024.572.01.0 Oct-MobileNet（v2）（我们的）.3753.525617.172.01.125 Oct-MobileNet（v2）（我们的）.54.229526.373.0表3：小模型的ImageNet分类结果。这表明它优于MXNet GluonCV v0.4 [14]的原始复制。在Intel Skylake处理器（2.0GHz，单线程）上使用TVM测试了推理速度。方法比值（α）深度参数数（M）浮点数（G）前1名（%）R-MG-34 [25]-3432.95.875.5Oct-ResNet-26（我们的）.252616.01.976.1Oct-ResNet-50（我们的）.55025.62.477.4ResNet-50 + GloRe [8]（+3块Res 4）-5030.55.278.4Oct-ResNet-50（我们的）+ GloRe [8]（+3块Res4）.55030.53.178.8[43]第四十三话：-5025.24.278.4Oct-ResNeXt-50（32×4d）（我们的）.255025.03.278.8[43]第四十三话：-10144.37.979.2Oct-ResNeXt-101（32×4d）（我们的）.2510144.25.779.6bL-ResNet-50（α=4，β=4）[4]-50（+3）26.22.576.9Oct-ResNet-50（我们的）.550（+3）25.62.577.8Oct-ResNet-50（我们的）.55025.62.477.4bL-ResNeXt-50纳米（32×4d） [4]-50（+3）26.23.078.4Oct-ResNeXt-50（32×4d）（我们的）.550（+3）25.12.778.6Oct-ResNeXt-50（32×4d）（我们的）.55025.02.478.4bL-ResNeXt-101§（32×4d） [4]-101（+1）43.44.178.9Oct-ResNeXt-101§（32×4d）（我们的）.5101（+1）40.14.279.4Oct-ResNeXt-101（32×4d）（我们的）.5101（+1）44.24.279.1Oct-ResNeXt-101（32×4d）（我们的）.510144.24.078.9表4：中型模型的ImageNet分类结果。卷积层是指用额外的卷积层取代“最大池化”的方法§是指使用平衡残差块分布的方法[4]。模型随着测试图像分辨率的增加而增加，因为OctConv可以更好地检测大型物体，这是由于其更大的接收场，参见附录C。3)两条信息交换路径都很重要，因为删除其中任何一条都可能导致精度下降，见附录C。4）浅网络，例如：ResNet-26具有相当有限的感受野，并且可以特别受益于OctConv，其极大地扩大了它们的感受野。4.3. 与ImageNet小模型。我们采用最流行的轻量级网络作为基线，并检查OctConv是否在这些具有深度卷积的紧凑网络特别是，我们使用结果示于表 3 中。实验结果表明，OctConv算法可以使MobileNetV 1的浮点数降低34%，并且在实际应用中具有更好的精度和更快的速度;它能够将MobileNetV 2的FLOPs减少15%，以更快的速度实现相同的精度。当计算预算为固定，可以采用更广泛的模型来增加学习能力，因为OctConv可以补偿额外的计算成本。特别是，我们配备OctConv的网络在相同的FLOP下比MobileNetV1提高2%，比MobileNetV2提高1%。中号的。在上述实验中，我们已经证明OctConv与一组最先进的CNN互补[16，17，47，22，18，34，19]。在这一部分中，我们将OctConv 与MG-Conv [25]，GloRe [8]，Elastic [43]和bL-Net [4]进行了比较，它们与我们的方法具有相似的思想。七组结果如表4所示。在第1组中，我们的Oct-ResNet-26显示0。比R-MG-34高 6% 的准确性，而成本仅为 FLOP 的三分之一和#Params的一半。此外，我们的Oct-ResNet- 50成本不到FLOPS的一半，实现了1. 准确度比R-MG-34高9%。在第2组中，将我们的OctConv添加到GloRe网络中，以更好的准确性降低了FLOP。在第3组中，我们的Oct-ResNeXt-50比基于Elastic [43]的方法（78.8%）V.S. 78.4%），同时降低了31%的计算成本。在第4组中，Oct-ResNeXt-101的准确性也高于基于Elastic的方法（79.6% vs. 79.2%），而计算成本减少38%。与bL-Net [4]相比，配备OctConv的方法实现了更好的FLOPs-Accuracy权衡，而没有铃声和技巧。当采用基线bL-Net [4]中使用的技巧时，我们的Oct- ResNet-50在相同的计算预算（第5组）下比bL-ResNet- 50高出0.9%的准确度，Oct- ResNeXt-50（第6组）和Oct-ResNeXt-101（第7组）在相当或甚至更低的计算预算下获得更好的准确度。这是因为MG-Conv [25]、Elastic-Net [43]和bL-Net [4]的设计遵循引入多尺度特征的原则，而不考虑减少空间冗余。相比之下，OctConv是为了解决CNN中的高空间冗余问题而诞生的，它使用更有效的策略来存储和处理整个网络中的信息，从而可以实现更好的效率和性能。大型模型。表5显示了OctConv在大型模型中的结果。在这里，我们选择ResNet-152作为骨干CNN，用三个3×3卷积层替换第一个7×7卷积，并通过轻量级残差块去除最大池化[4]。我们报告10月-ResNet-152有和没有SE块[19]。可以看出，我们的Oct-ResNet-152实现了与具有更少FLOP的最佳手动设计网络12.7G）。由于我们的模型不使用组或深度卷积，因此它也需要更少的GPU内存，并且与SE-ShuffleNet v2-164和AmoebaNet-A（N=6，F=190）相比，在实践中运行得更快，这些模型在理论上具有低FLOP，但在实践中运行缓慢2对于小模型，我们应该注意到根据算术强度[46]，实际执行时间不仅受FLOPS限制。3442方法参数数（M）输入大小培训存储器成本（MB）速度（im/s）浮点数测试（224 ×224）（G）前1名（%）前5名（%）Testin浮点数g（320×320/331（G）前1名（%）×331）前5名（%）NASNet-A（N=6，F=168）[51]Q88.9>32，48043‡---23.882.796.2AmoebaNet-A（N=6，F=190）[33]Q86.7>32，48047‡---23.182.896.1PNASNet-5（N=4，F=216）[29]Q86.1331 ×331/320 ×320>32，48038‡---25.082.996.2[19]第十九话115.1>32，48043†---42.383.196.4AmoebaNet-A（N=6，F=448）[33]Q469>32，48015§---10483.996.6[7]第七话79.531,8448316.080.194.932.081.595.8[32]第三十二话69.9>32，48070†12.781.4----[19]第十九话115.1224 ×22428,696782181.395.542.382.796.2Oct-ResNet-152，α = 0。125（我们的）60.215,56616210.981.495.422.282.396.0Oct-ResNet-152+ SE3，α = 0。125（我们的）66.821,8859510.981.695.722.282.996.3表5：大型模型的ImageNet分类结果。装备OctConv的型号名称以粗体字显示，相关作品的性能编号从相应的论文中复制使用CuDNN评估网络v10.04 in flop16 on asingle Nvidia Titan V100（32GB）for their training memory cost and speed.采用神经架构搜索的作品由（Q）表示。在大多数情况下，我们将批处理大小设置为128，但对于太大而无法装入GPU内存的网络，必须将其调整为64（用†表示），32（用表示）或8（用§在本节中，我们评估了Oct的有效性-Oct-C2 D，α=0.1，（我们的）G17.473.8（+1.9）Conv用于视频中的动作识别，并演示了i3DG28.173.3我们的空间OctConv足够通用，可以集成Oct-I3 D，α=0.1，（我们的）G25.674.6（+1.3）转换为3D卷积，以减少FLOP #并增加ac-I3D +非本地G33.374.7cracy与此同时如表6所示，OctConvOct-I3 D+非局部，α=0.1，（我们的）G28.975.7（+1.0）不断降低FLOPs，同时提高[12]第十二话27.6575.6当添加到C2D和I3D [44，45]时，与非本地化[44]。据观察，Oct-SlowFast-R50，α=0.1，（我们的）Oct-SlowFast-R50，α=0.2，（我们的）24.522.976.275.8（+0.6）（+0.2）对于在ImageNet [11]以及mod-（b）Kinetics-600[2]上预训练的模型他们都是从零开始学习动力学的高精度、低浮点数和与实验方法互补的能力，例如：非局部方法，验证了OctConv方法的有效性。当OctConv与SlowFast网络结合使用时，性能进一步提高[12]。具体来说，我们在空间维度上应用 OctConv ，在时间维度上应用SlowFast。5. 结论在这项工作中，我们解决了减少vanilla CNN模型中广泛存在的空间冗余的问题，并提出了一种新的Octave卷积操作来分别存储和处理低频和高频特征，以提高模型效率。Octave Convolution是一个...3当评估内存成本以获得更准确的结果时

下载后可阅读完整内容，剩余1页未读，立即下载