ELASTIC：通过动态缩放策略改进CNN

74 浏览量更新于2023-10-17 收藏 16.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

122580ELASTIC：通过动态缩放策略改进CNN0Huiyu Wang 1 * Aniruddha Kembhavi 2 Ali Farhadi 2, 3, 4 Alan Yuille 1 Mohammad Rastegari 2, 401. 约翰霍普金斯大学 2. PRIOR @ Allen Institute for AI 3.华盛顿大学 4. Xnor.ai0huiyu@jhu.edu { anik,mohammadr } @allenai.org ali@cs.uw.edu alan.l.yuille@gmail.com0摘要0从传统到现代的计算机视觉方法中，尺度变化一直是一个挑战。解决尺度问题的大多数解决方案都具有相似的主题：一组直观且手动设计的通用策略（例如SIFT或特征金字塔）。我们认为尺度策略应该从数据中学习。在本文中，我们介绍了一种名为ELASTIC的简单、高效且非常有效的从数据中学习动态尺度策略的方法。我们将尺度策略构建为网络结构内的非线性函数，该函数（a）从数据中学习，（b）是实例特定的，（c）不增加额外的计算量，（d）可以应用于任何网络架构。我们将ELASTIC应用于几种最先进的网络架构，并在ImageNet分类、MSCOCO多标签分类和PASCALVOC语义分割中展示了一致的改进。我们的结果显示在具有尺度挑战的图像上有重大改进。我们的代码可在此处获得：https://github.com/allenai/elastic01. 引言0尺度变化一直是计算机视觉中的主要挑战之一。关于编码尺度变化的不同方法在计算机视觉算法中有丰富的文献[20]。在特征工程中，已经有了手动预设的解决方案来提供尺度鲁棒性。例如，首先搜索尺度，然后根据已知尺度提取特征的思想在SIFT中使用，或者使用特征金字塔的思想都是这些预设解决方案的例子。其中一些思想也已经迁移到使用深度学习进行特征学习的现代识别解决方案中。旧学派和现代方法中大多数解决尺度编码的解决方案都是手动设计的固定解决方案。例如，大多数最先进的图像0* 在AI2实习期间完成的工作。0ResNeXt.500ResNeXt.500+ Elastic0类别：公鸡、爆米花、瓶子、高尔夫球、蜡烛、蜂巢、拐杖0Top 10Top 10图像0X L M S0图1：动态尺度策略。CNN中的尺度策略通常以金字塔方式手动集成到网络架构中。本图（第二行）中的彩色条显示了ResNext50架构不同块的尺度。早期层接收额外大的分辨率，随后的层分辨率逐渐减小，分别为大、中、小。我们认为CNN中的尺度策略应该是实例特定的。我们的Elastic模型（第三行）允许不同的尺度策略适用于不同的输入图像，并且它从训练数据中学习如何选择最佳策略。对于具有尺度挑战的图像，例如具有许多小（或不同尺度）对象的图像，网络能够根据输入自适应其尺度策略至关重要。正如本图所示，Elastic对于这些尺度挑战的图像给出了更好的预测结果（更多细节请参见第4.1.1节）。0年龄分类网络[16, 31, 10, 14, 38,42]使用特征金字塔策略，其中网络首先查看较大分辨率，然后在通过层时转到较小分辨率。尽管这种常见做法似乎是一种自然和直观的选择，但我们认为这种尺度策略不一定适用于图像中所有可能的尺度变化。我们认为理想的尺度策略应该（1）从数据中学习；（2）是实例特定的；（3）不增加额外的计算负担；（4）是22590适用于任何网络架构。例如，如果我们根据学习的和实例特定的策略而不是根据特征金字塔策略来处理图像（如图1所示），我们会看到性能有所提升。在图1中，对于像高尔夫球图像这样的具有尺度挑战的图像，学习到的尺度策略可能与金字塔策略截然不同，从而正确分类该实例。该实例的学习策略从一个较大的尺度（深蓝色）开始，然后立即转到一个较小的尺度，然后再转到一个较大的尺度，然后再转到一个较小的尺度，依此类推。在本文中，我们介绍了一种名为ELASTIC的方法，用于学习实例特定的、不一定是金字塔的尺度策略，而不增加额外（或更低的）计算成本。我们的解决方案简单、高效，在图像分类和分割的各种网络架构上都非常有效。我们的Elastic模型可以通过在每一层添加下采样和上采样并让网络从数据中学习在每一层中以不同分辨率处理输入的缩放策略来应用于任何CNN架构。我们将我们的模型命名为ELASTIC，因为网络中的每一层都可以通过软策略选择最佳尺度。我们的实验评估结果显示，在ImageNet[29]上的图像分类、MSCOCO[19]上的多标签分类以及PASCALVOC上的语义分割中，ResNeXt[35]、SE-ResNeXt[12]、DenseNet[14]和Deep LayerAggregation（DLA）[38]架构都有所改进。此外，我们的结果显示，在具有尺度挑战的图像（大量小物体或同一图像中尺度变化较大）上有重大改进（约4%），而在没有尺度挑战的图像上改进较小。我们的定性分析显示，具有相似尺度策略（在网络的各个层上）的图像在尺度出现的对象的复杂性模式方面具有相似性。02. 相关工作0Elastic的理念在概念上很简单，文献中有几种使用类似概念的方法。因此，我们研究了所有相关CNN模型的类别，并澄清了与我们模型的差异和相似之处。有几种方法可以在不同的视觉分辨率上融合信息。其中大部分被归类为四个类别（如图2（b-e）所示）。图像金字塔：输入图像在不同的分辨率上通过模型多次传递，所有级别上都进行独立的预测。最终输出是从所有分辨率的输出集合计算得出的。这种方法在[5, 6,30]中是常见的做法。损失金字塔：该方法在不同的分辨率上强制使用多个损失函数。[33]使用这种方法来改进网络内部计算资源的利用。0提高网络内部计算资源的利用。SSD[21]和MS-CNN[2]也在特征层次结构的多个层上使用损失。0滤波器金字塔：每个层被分成多个具有不同滤波器大小的分支（通常称为分裂-变换-合并架构）。滤波器大小的变化导致捕捉不同的尺度，但会增加额外的参数和操作。Inception系列网络[33, 34,32]使用这种方法。为了进一步减少滤波器金字塔的复杂性，[25, 36,37]使用扩张卷积以在相同的FLOPs下覆盖更大的感受野。此外，[4]使用2个CNN处理高频和低频，[40]提出根据不同容量从2个具有不同容量的CNN中自适应选择。0特征金字塔：这是在CNN架构中融合多个尺度的最常见方法。不同分辨率的特征通过连接或求和的方式在网络中融合。全卷积网络[23]将多个尺度的分数相加以计算最终的类别分数。超级列[8]使用网络中的早期层来捕捉低级信息并用向量描述像素。其他一些方法（HyperNet[15]，ParseNet[22]和ION[1]）将多个层的输出连接起来计算最终输出。包括SharpMask[27]和U-Net[28]用于分割，StackedHourglass网络[26]用于关键点估计和Recombinator网络[11]用于人脸检测的几种最新方法，都使用跳跃连接来融合多个分辨率和语义级别的低级特征图。[13]将DenseNet[14]扩展到不同分辨率块之间融合特征。特征金字塔网络（FPNs）[18]通过自上而下和横向连接来规范分辨率并平衡金字塔特征分辨率层次结构中的语义。同样，DLA[38]提出了一种迭代和分层的深度聚合方法，用于融合不同分辨率的特征。0Elastic类似于滤波金字塔家族和特征金字塔家族的模型，引入了计算的并行分支（类似于滤波金字塔），并且还融合了不同尺度的信息（类似于特征金字塔）。与特征金字塔模型的主要区别在于，在Elastic中，网络中的每一层都以唯一的方式考虑多个尺度的信息，而在特征金字塔中，高分辨率或低分辨率的信息是从其他层注入的。Elastic在层之间提供了指数级的缩放路径，并且保持了与基础模型相同（甚至更低）的计算复杂性。与滤波金字塔的主要区别在于，Elastic中覆盖更高感受野所需的FLOPs数量比例较低，这是由于下采样，而在滤波金字塔中，FLOPs数量要么更高，要么与原始卷积相同。F(x) = σ�q�i=1Ti(x)�(1)N = F32 ◦ F31 ◦ Dr2 ◦ F22 ◦ F21 ◦ Dr1 ◦ F12 ◦ F11 (2)F(x) = σ�q�i=1Uri(Ti(Dri(x)))�(3)N = F32 ◦ F31 ◦ F22 ◦ F21 ◦ F12 ◦ F11(4)where Dri(x) and Uri(x) are respectively downsamplingand upsampling functions which change spatial resolutionsof features in a layer. Unlike in equation 2, a few F are ap-plied sequentially without downsampling the main stream,and N(x) has exactly the same resolution as original x.Note that the learned scaling policy in this formulationwill be instance-speciﬁc i.e. for different image instances,the network may activate branches in different resolutions ateach layer. In section 4 we show that this instance-speciﬁcscaling policy improves prediction on images with scalechallenges e.g. images consist of lots of small objects orhighly diverse object sizes.Conceptually, we propose a new structure where infor-mation is always kept at a high spatial resolution, and eachlayer or branch processes information at a lower or equalresolution. In this way we decouple feature processing res-olution (Ti processes information at different resolutions)from feature storage resolution (the main stream resolu-tion of the network). This encourages the model to pro-cess different scales separately at different branches in alayer and thus capture cross-scale information. More in-terestingly, since we apply Elastic to almost all blocks, thedynamic combination of multiple scaling options at eachlayer leads to exponentially many different scaling paths.They interpolate between the largest and the smallest possi-ble scale and collectively capture various scales. In fact,this intuition is aligned with our experiments, where wehave observed different categories of images adopt differentscaling paths (see section 4.1.1). For example, categorieswith clean and uniform background images mostly choosethe low-resolution paths across the network and categorieswith complex and cluttered objects and background mostlychoose the high-resolution paths across the network.The computational cost of our Elastic model is equal toor lower than the base model, because at each layer the max-imum resolution is the original resolution of the input ten-sor. Low resolution branches reduce the computation andgive us extra room for adding more layers to match the com-putation of the original model.This simple add-on of downsamplings and upsamplings(Elastic) can be applied to any CNN layers Ti(x) in any ar-chitecture to improve accuracy of a model. Our applicationsare introduced in the next section.226003. 模型0在本节中，我们详细说明了我们提出的Elastic的结构，并说明了使用我们的Elastic增强的标准CNN架构。我们还将我们的模型与其他多尺度方法进行对比。03.1. CNN块中的缩放策略0形式上，CNN中的一层可以表示为0其中 q 是要聚合的分支数量， T i ( x )可以是任意函数（通常是卷积、批归一化和激活函数的组合）， σ 是非线性函数。几个 F ( x )被堆叠成一个阶段，以处理一个空间分辨率的信息。堆叠具有不断减小空间分辨率的阶段，以在网络架构中集成金字塔尺度策略。一个具有每个阶段2层的3个阶段的网络示例是0其中 D r i 表示经过几层后分辨率减少了 r i > 1的比例。可以通过在卷积之后增加步幅来简单实现 D r i。例如，ResNeXt[ 35]在每个分辨率上堆叠瓶颈层，并使用步幅为2的卷积来降低空间分辨率。这导致了一个固定的缩放策略，强制要求层数和这些层的有效感受野之间存在线性关系。 T i ( x )的参数和输入张量 x中的元素都是定义模型计算能力的具体因素。在由FLOPs度量的固定计算能力下，要提高这样一个模型的准确性，我们可以增加 T i ( x ) 中的参数数量并降低 x的分辨率，或者增加 x 的分辨率并减少 T i ( x )中的参数数量。通过调整每一层的输入分辨率和参数数量，我们可以定义网络中的一个缩放策略。我们认为找到最佳的缩放策略（在每一层中分辨率和参数数量之间的权衡）并不是一件简单的事情。有几种模型设计可以增加准确性并手动注入特征金字塔的变化，但其中大多数都以更高的FLOPs和更多的网络参数为代价。在下一节中，我们将解释我们的解决方案，该解决方案可以学习一个最佳的缩放策略，并在提高准确性的同时保持或减少参数数量和FLOPs。03.2. ELASTIC结构0为了学习不同尺度的图像特征，我们建议在每一层的并行分支中添加下采样和上采样，并让网络根据不同的分辨率调整其处理过程的决策。0每一层。网络可以从训练数据中学习这个策略。我们在每一层的并行分支中添加了下采样和上采样，并将所有参数分配到这些分支中，如下所示：LossLossLossLossLossLossFilter PyramidSingle scaleImage PyramidLoss PyramidFeature PyramidImageImageImageImageImageImageLossElasticImageElastic Layer(a)(b)(c)(d)(e)(f)Loss⊕⊕⊕Figure 2: Multi-scaling model structures. This ﬁgure illustrates different approaches to multi-scaling in CNN models andour Elastic model. The solid-line rectangles show the input size and the dashed-line rectangles shows the ﬁlter size.28.28.25656.56.6456.56.641x13x31x116paths1x13x31x156.56.25656.56.2561x13x31x116paths1x13x31x1DownSampleUpSample28.28.25656.56.2561x13x31x132paths1x13x31x156.56.25656.56.2561x13x31x13x3CAT56.56.3256.56.2561x13x3CAT56.56.25656.56.32DenseNetResNeXt / DLA-XOriginalwith ElasticOriginalEquivalentDownSampleUpSample1x13x31x11x13x31x11x13x31x13x3CAT56.56.3256.56.256Down SampleUp Sample56.56.3256.56.12856.56.3228.28.6428.28.3256.56.3256.56.3222610使用弹性0图3：左：ResNeXt瓶颈与弹性瓶颈。右：DenseNet块与其等效形式与弹性块。弹性块将一半的路径用于处理低分辨率的下采样输入，然后将处理后的特征上采样并添加回具有原始分辨率的特征。弹性块具有与原始块相同数量的参数和更少的FLOPs03.3. 使用弹性增强模型0现在，我们展示如何在不同的网络架构上应用弹性。为了展示弹性的能力，我们将弹性应用于一些最先进的网络架构：ResNeXt[35]，Deep LayerAggregation（DLA）[38]和DenseNet[14]。将弹性应用于当前的分类模型的一种自然方式是使用多个分支增强瓶颈层。这使得我们对ResNeXt和DLA的修改几乎相同。在每一层，我们对一部分分支应用下采样和双线性上采样，如图3-left所示。在DenseNet中，我们通过将单个分支并行化为两个分支，然后对一些分支应用下采样和上采样来编译一个等效版本，如图3-right所示。请注意，应用弹性会减少每层的FLOPs。为了匹配原始的FLOPs，我们增加网络中的层数，同时将类似数量的FLOPs分配给不同的分辨率0与其他多尺度方法的关系如第2节所讨论的，当前大多数多尺度方法可以分为四个不同的类别（1）图像金字塔，（2）损失金字塔，（3）过滤金字塔，以及0（4）特征金字塔。图2（b-e）展示了这些类别的结构。所有这些模型通常可以在更高的计算预算下提高准确性。弹性（图2）在不增加额外计算成本的情况下实现更好的准确性。过滤金字塔是与弹性最相似的模型。与过滤金字塔的主要区别在于，由于下采样，弹性中覆盖更高感受野的FLOPs数量比例较低，而在过滤金字塔中，FLOPs要么更高，要么与原始卷积相同，这取决于过滤器大小或膨胀参数。表1比较了弹性和特征/过滤金字塔在单个卷积操作中的FLOPs和参数数量。请注意，弹性中的FLOPs和参数始终低于或等于原始模型，而在特征/过滤金字塔中，这个值更高或相等。特征金字塔方法通常应用于现有的分类模型之上，通过将来自不同分辨率的特征进行连接。它能够合并主干模型中不同尺度的特征，并在各种任务上显示出改进，但它并不本质上改变缩放策略。我们的弹性结构可以被视为一个层内的特征金字塔qn2c(kri)2qc(kri)2( nri )2ck2bick2which is able to model different scaling policies. Spatialpyramid pooling or Atrous(dilated) spatial pyramid sharesthe same limitation as feature pyramid methods.4. ExperimentsIn this section, we present experiments on applying Elas-tic to current strong classiﬁcation models. We evaluate theirperformances on ImageNet classiﬁcation, and we show con-sistent improvements over current models. Furthermore, inorder to show the generality of our approach, we transferour pre-trained Elastic models to multi-label image classi-ﬁcation and semantic segmentation. We use ResNeXt [35],DenseNet[14] and DLA [38] as our base models to be aug-mented with Elastic.Implementation details.We use the ofﬁcial PyTorch Im-ageNet codebase with random crop augmentation but with-out color or lighting augmentation, and we report stan-dard 224×224 single crop error on the validation set. Wetrain our model with 8 workers (GPUs) and 32 samples perworker. Following DLA [38], all models are trained for 120epochs with learning rate 0.1 and divided by 10 at epoch30, 60, 90. We initialize our models using normal He ini-tialization [9]. Stride-2 average poolings are adopted as ourdownsamplings unless otherwise notiﬁed since most of ourdownsamplings are 2× downsamplings, in which case bi-linear downsampling is equivalent to average pooling. Also,Elastic add-on is applied to all blocks except stride-2 onesor high-level blocks operating at resolution 7.4.1. ImageNet classiﬁcationWe evaluate Elastic on ImageNet[29] 1000 way classiﬁ-cation task (ILSVRC2012). The ILSVRC 2012 dataset con-255075Million parameters2122Top-1 errorResNeXt-ElasticDLA-ElasticResNeXtDLA51015Billion FLOPs2122Top-1 errorResNeXt-ElasticDLA-ElasticResNeXtDLAFigure 4: Imagenet Accuracy vs. FLOPS and Parameters Thisﬁgure shows our Elastic model can achieve a lower error withoutany extra (or with lower) computational cost.tains 1.2 million training images and 50 thousand validationimages. In this experiment, we show that our Elastic add-on consistently improves the accuracy of the state-of-the-artmodels without introducing extra computation or parame-ters. Table 2 compares the top-1 and top-5 error rates ofall of the base models with the Elastic augmentation (indi-cated by ’+Elastic’) and shows the number of parametersand FLOPs used for a single inference. Besides DenseNet,ResNeXt, DLA, SE-ResNeXt50+Elastic is also reported. Inall the tables ”*” denotes our implementation of the model.It shows that our improvement is almost orthogonal to thechannel calibration proposed in [12]. In addition, we in-clude ResNeXt50x2+Elastic to show that our improvementdoes not come from more depth added to ResNeXt101. InFigure 4 we project the numbers in the Table 2 into twoplots: accuracy vs. number of parameters (Figure 4-left)and accuracy vs. FLOPs (Figure 4-right). This plot showsthat our Elastic model can reach to a higher accuracy with-out any extra (or with lower) computational cost.4.1.1Scale policy analysisTo analyze the learned scale policy of our Elastic model, wedeﬁne a simple score that shows at each block what was theresolution level (high or low) that the input tensor was pro-cessed. We formally deﬁne this scale policy score at eachblock by differences of mean activations in high-resolutionand low-resolution branches.S =14HWC2H�h=12W�w=122620多尺度方法FLOPs参数0单尺度n 2 ck 2 ck 2特征金字塔（连接）n 2（qc）k 2（qc）k 2特征金字塔（加法）n 2 ck 2 ck 20b i 过滤金字塔（膨胀）n 2 ck 2 ck 20弹性 � q i =10表1：多尺度模型中的计算。该表比较了弹性和特征/过滤金字塔在单个卷积操作中的FLOPs和参数数量，其中输入张量为n×n×c，滤波器大小为k×k。q表示层中的分支数，其中�q1 1 bi = 1，bi > 1和ri >1分别表示分支和缩放比。请注意，弹性中的FLOPs和参数始终低于或等于原始模型，而在特征/过滤金字塔中，这个值更高或相等。0c =1 x 高 hwc − 10HWC0H �0h =10W �0w =10c =1 x 低 hwc(5)0其中 H、W、C分别是低分辨率分支中的高度、宽度和通道数。x high 和 xlow分别是高分辨率和低分辨率分支中经过3×3卷积、固定批量归一化和ReLU后的激活。图5显示了ImageNet验证集中按平均尺度策略分数S（对于ResNeXt50+Elastic模型的所有图像在每个类别的所有层中的平均值）排序的所有类别。可以看到，具有更复杂图像的类别似乎具有较大的S，即它们大多通过每个块中的高分辨率分支，而具有较简单图像的类别则大多通过低分辨率分支。22630模型 # 参数 FLOPs Top-1 Top-50DenseNet201 * 20.0M 4.4B 22.25 6.26DenseNet201+Elastic 19.5M 4.3B 22.07 6.000ResNeXt50 25.0M 4.2B 22.2 - ResNeXt50 * 25.0M4.2B 22.23 6.25 ResNeXt50+Elastic 25.2M 4.2B 21.565.830SE-ResNeXt50 * 27.6M 4.2B 21.87 5.93SE-ResNeXt50+Elastic 27.8M 4.2B 21.38 5.860ResNeXt101 44.2M 8.0B 21.2 5.6 ResNeXt101 * 44.2M8.0B 21.18 5.83 ResNeXt101+Elastic 44.3M 7.9B 20.835.41 ResNeXt50x2+Elastic 45.6M 7.9B 20.86 5.520DLA-X60 17.6M 3.6B 21.8 - DLA-X60 * 17.6M 3.6B21.92 6.03 DLA-X60+Elastic 17.6M 3.2B 21.25 5.710DLA-X102 26.8M 6.0B 21.5 - DLA-X102+Elastic 25.0M6.0B 20.71 5.380表2：ImageNet验证集上的最先进模型比较。基础模型（DenseNet、ResNeXt和DLA）通过Elastic进行增强（用'+Elastic'表示）。*表示我们对这些模型的实现。请注意，使用Elastic进行增强总是在各个方面提高准确性。0玩具店0钢鼓0篮球0沙槌0虎鲨0橙子0类别0尺度激活的差异0高尺度0低尺度0图5：复杂与简单图像类别的尺度策略。该图显示了整个ImageNet类别中的整体块尺度策略分数。它显示具有复杂图像模式的类别大多通过网络的高分辨率分支，而具有较简单图像模式的类别则通过低分辨率分支。0模式似乎具有较小的S，这意味着它们大多通过每个块中的低分辨率分支。为了分析尺度策略对Elastic准确性的影响，我们将每个图像（在ImageNet验证集中）表示为一个17维向量，其中17个元素的值是ResNeXt50+Elastic模型中17个Elastic块的尺度策略分数S。然后我们对所有这些向量应用tsne[24]以获得二维0可视化。在图6-(左)中，我们在tsne坐标中绘制了所有图像。可以看到图像是根据其复杂性模式进行聚类的。在图6-(中)中，我们显示了17个尺度策略分数S在17个块中的所有图像。可以看到，大多数图像在早期层通过高分辨率分支，而在后期层通过低分辨率分支，但有些图像打破了这种模式。例如，绿色圈指向的图像在网络的第13个块中激活了高分辨率分支。这些图像通常包含复杂的模式，网络需要以高分辨率提取特征以正确分类。紫色圈指向的图像在早期层的第4个块中激活了低分辨率分支。这些图像通常包含简单的模式，网络可以在早期的低分辨率下进行分类。在图6-(右)中，我们在底部行中显示了tsne空间中所有验证图像的密度，并在顶部行中显示了由我们的Elastic模型正确分类但基本ResNeXt模型错误分类的图像的密度。这种比较显示，Elastic可以改善预测的大多数图像都是具有更具挑战性的尺度属性的图像。其中一些被黄色圈指出。04.2. MS COCO多标签分类0为了进一步研究我们模型的泛化性，我们对ImageNet预训练模型进行微调，并在MSCOCO多标签分类任务上进行评估。MSCOCO图像更加复杂，每个图像中存在来自不同类别和尺度的多个对象。0实现细节。我们报告的所有模型都是从ImageNet预训练模型微调得到的，训练时长为36个周期，学习率从0.001开始，在第24和30个周期时除以10。我们使用4个工作进程和每个工作进程24张图像进行训练，使用SGD和权重衰减0.0005。我们使用二元交叉熵（BCE）损失训练模型，这通常用作显式建模空间或语义关系的领域特定工作的基线。我们使用与ImageNet训练相同的数据增强，并采用标准的多标签测试，将图像调整为224×224。0评估指标。根据多标签分类的文献[41, 7, 39,17]，使用宏观/微观评估来评估结果。在使用BCE损失训练模型后，概率大于0.5的标签被视为正类。然后，计算宏观和微观F1分数分别用于衡量整体性能和每类性能的平均值。0结果。表3显示，Elastic始终改善了每类F1和总体F1。在DLA的情况下，Elastic数据增强甚至大幅减少了FLOPs和参数数量。1716151413121110987654321ResNet101*69.9874.58DenseNet201*69.9574.50DenseNet201+Elastic70.4074.99DLA-X60*70.7975.41DLA-X60+Elastic71.3575.77ResNeXt50*70.1274.52ResNeXt50+Elastic71.0875.37ResNeXt101*70.9575.21ResNeXt101+Elastic71.8375.9322640尺度激活的差异ResNext50-Elastic的所有17层0高尺度低尺度 Elastic改善的分布0ImageNet验证集的分布0图6：尺度策略分析。该图显示了尺度策略对我们Elastic模型准确性的影响。（左）展示了使用tsne将所有ImageNet验证集按照ResNeXt50+Elastic中的尺度策略模式进行聚类的结果，如第4.1.1节所讨论的。（中）展示了网络的17个块中所有图像的尺度策略得分。大多数图像在早期层使用高分辨率特征，在后期层使用低分辨率特征，但有些图像打破了这个模式。绿色圆圈中的图像在第13个块中使用高分辨率特征。紫色圆圈中的图像在第4个块中使用低分辨率特征。这些图像通常包含一个较简单的模式。（右）底部展示了tsne空间中图像的密度，

下载后可阅读完整内容，剩余1页未读，立即下载