下采样中的局部重要性建模以增强特征学习

104 浏览量更新于2023-10-13 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3355LIP：基于本地重要性的合并王子腾高利民 *吴刚山南京大学软件新技术国家重点实验室摘要空间下采样层在卷积神经网络（CNN）中是有利的，以缩小特征图以获得更大的感受野和更少的存储器消耗。然而，对于区分性任务，存在以下可能性：斑片激活如何进行下采样？由于不适当的池化策略，这些层丢失了区别性的细节，这可能阻碍学习过程并最终导致次优模型。在本文中，我们提出了一个统一的框架，在现有的下采样层（例如，平均池化、最大池化和跨步卷积）。在这个框架中，我们分析了这些广泛使用的池层的问题根据这一分析，我们提出了一个概念上简单，通用，和有效的池层的基础上局部重要性建模，称为本地重要性为基础的池（LIP）。LIP可以在下采样过程中通过学习基于输入的自适应重要性权重来自动增强鉴别特征。实验结果表明，LIP算法在不同深度和不同结构的ImageNet分类器上均能获得显著的分类效果.在具有挑战性的MS COCO数据集中，使用我们的LIP-ResNets的检测器因为主链获得一致的改善（ ≥1. 4% ）超过香草ResNets，尤其是实现了目前在单尺度测试方案下检测小物体的最新性能。11. 介绍对于像图像分类[8]和对象检测[27]这样的区分任务，卷积神经网络（CNN）的现代架构主要利用空间下采样（池化）层来减小隐藏层中特征映射的空间大小。这种池化层用于更大的感受野和更少的内存消耗，特别是在极深的网络中[34，15]。广泛使用的maxpooling、average pooling和strided convolution使用步长大于1的滑动窗口，*通讯作者。1代码可在https://github.com/sebgao/LIP上获得。图1：我们的动机。(Left右侧）原始图像、一些附近的块、特征图中的对应的图示激活以进行下采样，以及最后，我们需要的输出激活。在这里，红色调激活是由前景鸟引起的。蓝色色调激活是由顶部补丁中的背景杂波或底部补丁中的代表性蓝色羽毛引起的。我们希望保留顶部补丁窗口中的红色调激活下采样方法应跨滑动窗口自适应地识别鉴别在每个局部窗口中使用不同的策略来显示功能。但是这些层可能会阻止区分细节被很好地保留，这对于识别和检测任务是至关重要的。这对于微小对象的区别性特征是特别不期望的，因为这样的细节可能被杂波激活稀释或者甚至不被不适当的下采样策略采样。在本文中，我们的目标是解决现有的下采样层提出的这些问题为了分析它们的缺点，我们提出了一个统一的框架，从局部重要性的观点。在这种新的视角下，现有的池化过程可以被视为在每个滑动窗口中聚合具有其局部重要性的特征据我们所知，我们是第一个从重要性角度为下采样层提出框架的人，这使我们能够以更有原则的方式分析和改进池化方法因此，我们表明，平均和最大池都是次优的，由于强假设或无效的先验知识。步长卷积采用了不适当的间隔采样，也不能自适应地对重要性为了克服它们的局限性，我们提出了一种新的池化方法来自动学习重要性权重，称为基于局部重要性的池化（LIP）。基本上，我们认为，不是所有附近的像素作出贡献3356同样地，在下采样过程中，一些特征比邻域内的其它特征更具鉴别力，如图1所示。因此，期望明确地对局部重要性进行建模并且在局部邻域内的像素上建立度量。从这个分析中，我们提出了LIP，以满足一个理想的池化操作的要求。具体来说，LIP提出了学习的重要性度量的子网络的基础上的输入功能自动。在这个意义上，LIP能够自适应地确定哪些特征更重要以通过下采样来保持。例如，LIP使网络能够保留微小目标的特征，同时在识别或检测小物体时丢弃背景杂波的错误激活。此外，LIP是比现有方法更通用的池化方法，在某种意义上，它能够模仿平均池化、最大池化和细节保留池化的行为[33]。实验表明，LIP在不同架构的ImageNet [8]上的表现优于基线方法我们还在具有挑战性的COCO检测任务中评估了我们的LIP骨干[27]，其中定位小物体起着重要作用。以我们的LIP-ResNets为主干的一级和两级检测器与vanilla ResNets相比获得了一致的改进，特别是在单尺度测试方案下检测小物体时实现了新的最先进性能。2. 相关工作下采样层作为CNN中的基本层是由LeNet-5 [20]提出的，作为一种通过在滑动窗口中求和来降低空间分辨率的方法。空间下采样过程也存在于传统方法中。例如，HOG和SIFT [7，29]聚合了每个空间邻域内的梯度描述符。基于词袋（BoW）的模型也在对象识别中使用了密集池，以获得对平移和尺度方差更鲁棒的表示[37，19]。现代CNN利用池化层来缩小特征图，主要是为了更大的感受野和更少的存储器消耗。 VGG [34] 、Inception [38，18，39]和DenseNet [17]使用平均和最大池化作为下采样层。ResNet [15]采用步长不为1的卷积来提取规则非连续位置的特征作为下采样层。一些池化方法，包括全局平均池化[24]，ROI池化[9]和ROI对齐[14]，旨在将任意大小的特征图缩小到固定大小，因此使网络能够与不同大小的输入合作我们不讨论这些方法，因为它们是针对特定架构设计的。在这里，我们只关注网络内部的池化层，即以固定比例逐渐缩小特征映射的层之前有一些关于池化方法的分析CNN的广泛应用。Boureau等人 [2]分析了传统方法中的平均和最大池化，并证明了最大池化在概率上比平均池化能保留更多的区分特征。这项工作[43，41]表明，池化可以没有特定的形式，学习池化特征是有益的。我们的工作主要是沿着这条研究路线进行的，我们的结果进一步支持了这些结论。最近关于池化的工作集中在如何通过新的池化层更好地缩小CNN中的特征图。分数池化[11]和S3pool [46]试图改进执行池化的空间变换的方式，这不是本文的重点。混合池和混合池[45，21]使用最大池和平均池的各种组合Lp池化[13]以Lp范数方式聚合激活，其可以被视为由学习的p控制的最大池化和平均池化之间的连续体。这些方法可以统一最大池和平均池，进一步提高网络的性能。然而，他们可以简单地学习更好的池化方法的基础上平均池化和最大池化，或它们的组合，但未能提供更多的见解，一般下采样方法。Saeedan等人 [33]认为，应保留细节，并通过建议的细节保留池（DPP）丢弃冗余特征。DPP的细节标准是相对手工制作的，通过计算滑动窗口中像素的统计偏差，这是启发式的，并且可能不是最优的。在本文中，我们分析了广泛使用的池层基于局部重要性观点，这在以前的工作中没有被研究。我们提出的LIP，自然是从这个概念中产生的，比手工制作的池层有很大的优势。基于注意力的方法最近在计算机视觉社区中流行[42，49]。我们的LIP也可以被看作是一个局部注意力的方法，旨在汇集，其中注意力的权重是在softmax的形式。LIP主要在两个重要方面不同于其他注意力方法，以便与下采样过程具有更好的兼容性：(1)注意力权重通过logit模中的局部卷积产生，然后局部归一化;（2）LIP没有采用注意建模中的关键查询方案来获得更好的移位不变性。3. 局部重要性建模在本节中，我们首先从局部重要性建模的角度来呈现用于对层进行下采样的框架我们讨论了一些广泛使用的池层在这个框架中。接下来，我们描述了我们提出的基于本地重要性的池（LIP），这自然产生于此分析。最后，我们展示了如何装备流行的架构与LIP层，然后获得LIP-ResNet和LIP-DenseNet。3357平均池化最大池化步进卷积拟定LIP下采样特征图FAP（I）=1FMP （I）= lim exp（βI）β！1FSC （一）x为oh1，x和y是偶数，=0，否则。FLIP（I）= exp（G（I））图2：LAN框架中的不同下采样方法。输入特征图中的激活是蓝色的，颜色越深意味着越大。仅显示当前滑动窗口内的激活和相应的重要性。对于步幅卷积，窗口大小等于步幅，此处为2。3.1. 框架和分析为了分析现有的下采样方法并很好地激励我们的LIP，我们从局部重要性的角度提出了一个统一的下采样层框架，称为局部聚合和归一化（LAN）。具体而言，给定输入特征图I，内核索引集Ω由滑动窗口中的相对采样位置（∆x，∆y）和输入特征图中与滑动窗口对应的左上位置（x，y）组成，其中输出位置（x′，y′），LAN框架被公式化为：Σ（∆x，Σ∆y）∈ΩF（I）x+∆x，y +∆yIx+∆x，y +∆y窗口如图1所示。采样的特征应该对目标任务具有足够的局域网框架提供了一个原则性的方法来理解和改进这些池化方法，通过研究相应的重要性函数F。接下来，我们分析了这个框架中一些广泛使用的下采样层，并找出理想池化操作的要求。图2显示了在框架中查看的一些下采样方法平均和最大池化。如[2]中所讨论的，给定F（I）= exp（βI），β= 0给出平均池化，β→ ∞给出最大池化。平均池关联要素在聚合过程中对所有位置具有相同的重要性Ox′，y′=（∆x，∆y）∈ΩF（I）x+∆x，y+∆y、（1）在一个小窗口，而最大池把所有atten-在一个邻域内的最大激活上的作用我们其中F（I）是空间上与I大小相同且F（I）≥0的重要性图除法（x/x′，y/y′）代表步幅因子，例如，对于2×2步幅，x = 2x′，y = 2y′。在本文中，我们简单地将步幅2×2表示为2正如框架的名称所暗示的，这个视图中的池可以可以看到两个步骤：聚合具有重要性F（I）的特征，并通过局部滑动窗口内的重要性将它们归一化。该框架可以自然地扩展到多信道情况。可以将该框架中的池化视为每个窗口上的加权和，其中权重是局部归一化的重要性：我认为这两种方法都是次优的。平均池化损害有区别的但小的特征，并且由于特征的局部相等的强假设而导致模糊的下采样特征。然而，最大池化作为对特征选择的平均池化的改进，假设最具鉴别力的特征应该是最大激活的。这种假设主要有两个缺点。首先，最大激活代表最具区分性的细节的先验知识可能并不总是正确的。其次，滑动Win-Max算子阻碍了基于梯度的优化，因为在反向传播中，梯度仅被分配给局部最大值，如[33]中所讨论的。这些稀疏梯度将ΣF（I）x+∆x，y+∆y（x，y）∈F（I）x+ x，y+y、（二）进一步增强了这种不一致性，因为区别性激活将永远不会成为最大值，除非当前对于Ix+∆x，y+∆y，我们简单地称之为局部重要性。因此，局部重要性代表滑动窗口内的特征的权重。我们可以通过F（I）来分析下采样过程中哪些特征比附近的其他特征更重要。我们的动机是，由于特征池过程-最大值被抑制。跨回旋。步幅卷积可以被看作是步幅为1的密集卷积，然后是空间子采样[47]。这种空间子采样可以在我们的框架中解释为下采样，其中.1，如果x和y都是s的倍数dure本质上是有损耗的，因为它将大的输入挤压成小的输出，所以有必要仔细考虑哪个fea。F（I）x，y=（三）0，否则，采样的特征以及如何在一个小的滑动中聚合它们，其中I是密集卷积的特征，s是F（·）聚合局部规格化我3358步长因子和滑动窗口大小。从这个角度来看，跨步卷积的下采样部分无法自适应地对下采样过程中的重要性进行建模。此外，它只关注每个滑动窗口内的一个固定位置，而丢弃其余的位置该固定间隔采样方案将限制移位不变性，因为需要卷积图案出现在特定和非连续位置以激活。在这个意义上，微小的移位和失真可能导致下采样特征的巨大变化，并且因此干扰下采样特征的移位不变性。CNN [47].对于步幅1 ×1卷积的情况，由于特征图没有得到充分利用，情况甚至更糟[16]这将导致梯度棋盘问题[32]。我O（一）进口火炬导入torch.nn功能为Fdeflip2d（x，logit，内核大小=3，步幅=2，填充=1）：weight = torch.exp（logit）returnF.avg pool2d（x*weight，kernel size，stride，padding）/F.avg pool2d（weight，kernelsize，stride，padding）（b）第（1）款细节保留池。最近提出的细节-保留池（DPP）[33]使用细节标准作为重要性函数F，其通过滑动窗口中的特征与激活统计的偏差来DPP通过设计更复杂的重要性函数并确保连续性以获得更好的梯度优化来解决最大池化问题。然而，DPP中的假设是启发式的，并且更详细的特征可能是不太区分的特征。例如，背景杂波可以比前景中的纯色鸟更详细。因此，DPP可能会保留对输出的歧视性较小的细节。最大池化和DPP中的手工重要性函数将一般先验知识引入到下采样过程中，这可能导致与判别任务的最终目标不一致。图3：LIP操作符及其PyTorch实现。在（b）中未示出logit模块G（a）中的基于端到端方式的输入。为了使重要性权重非负并且易于优化，我们在G的顶部添加eXp（·）运算，即：F（I）= exp（G（I）），⑷其中G和G（I）分别被称为logit模和logit，因为G（I）是重要性的对数。与在最大池化或DPP中由先前知识指定的手工制作的形式相比，logit模块G能够学习用于最大池化或DPP的更好且更兼容的重要性准则。网络和目标任务。更具体地，根据等式（1），LIP然后被写为：理想池的要求从分析中Σ（∆x，Σ∆y）∈ΩIx+ x，y+y exp（G（I））x+∆x，y +∆y上面我们可以算出理想的池化层的要求。首先，下采样程序是预期的Ox′，y′=（∆x，∆y）∈ Ωexp（G（I））x+∆x，y+∆y.（五）尽可能地处理微小的变化和扭曲BLE，因此应当避免采用固定间隔采样方案，即，F用于跨步回旋。第二，重要性函数F应该对区分特征是选择性的，而不是基于先验知识手动设计的，即，F用于最大合并和DPP。这种区分性度量应该适应不同的任务，并由最终目标自动确定。3.2. 基于局部重要性的池化为了满足局域网框架中局部重要性观点对理想池的要求，我们提出了基于局部重要性的池（LIP）。通过在F中使用可学习的网络G，重要性函数现在不限于手工制作的形式，并且能够学习特征的区分性。同时，我们将LIP的窗口大小限制为不小于步长，以充分利用特征图并避免固定间隔采样方案的问题。更具体地说，LIP中的重要性函数是由一个微小的全卷积网络（FCN）实现的[28]，它学习生成重要性图GexpF（I）窗和作为除数÷3359利用LIP，可以在下采样过程期间通过在相应位置处学习较大的G（I）在LIP的当前实现中，logit在渠道智慧方式图3显示了LIP的图和Py-Torch实现。LIP的可变形建模。在宏观层面上，LIP的可学习重要性函数F使网络能够通过学习良好的效果来对物体的变形进行将特征分配到具有自适应重要性权重的下采样中。与通过具有自适应偏移的双线性插值来采样特征的可变形卷积[6，50]不同，LIP基于输入显式地执行空间动态特征选择，因此具有可变形的感受野。LIP变形能力的经验证据在第4.2节中给出并讨论。3.3. 示例：LIP ResNet和LIP DenseNetResNet [15]和DenseNet [17]是现代CNN的典型架构。ResNet主要使用strided convo-3360除了底部的一个最大池化之外，所有的解都作为下采样层。DenseNet在过渡块中使用平均池化，在底部使用跨越卷积层和最大池化（如ResNet）来缩小特征图。使用LIP的架构。我们采用修订的ResNet [12]作为我们的普通ResNet基线，其中剩余分支使用3×3内核进行跨步卷积，如图4a所示。为了构建LIP变体，我们替换max底部的池化和具有LIP的下采样块中的跨步卷积如第3.1节所讨论的，ResNet中的跨步卷积可以被密集卷积和随后的LIP所取代。然而，这种替换是计算密集型的并且存储器效率低。相反，我们首先缩小特征，然后执行卷积。在这个意义上，我们使用LIP和后续卷积来替换残差和快捷分支中的跨步卷积，如图4b所示。为了保持感受野为了避免间隔采样问题，我们将LIP的窗口大小设置为3×3，并将随后的卷积设置为1×1。我们保持ResNet顶部的全局平均池总共7层（1层用于最大池化，3×2用于跨越卷积）被LIP层替换我们将这种修改后的ResNet架构命名为LIP-ResNet。对于DenseNet，我们将过渡块中的2×2平均池化层和底部的3×3最大池化层替换为窗口大小相同配置的LIP层。全球平均池化也像LIP-ResNet一样保持不变。总共4层（1个最大池化和3个平均池化）被LIP层替换，并且所得到的网络被称为LIP-DenseNet。Logit模块的设计。在当前的实现中，我们为LIP层设计了两种形式的logit模块，分别称为投影和瓶颈形式。logit模块的结构在图4d和4e中示出。在投影形式中，LIP中的logit模块简单地由1×1卷积层组成。瓶颈形式的logit模类似于瓶颈中的剩余枝blocks [15]，旨在以有效的方式捕获空间信息这种形式表示为Bottleneck-x，其中x是3×3卷积的输入和输出中的通道数为了进一步降低LIP-ResNet中瓶颈logit模块的计算复杂度，将前1×1卷积和3×3卷积之间共享构建块中的残余和快捷分支。在-这里的Logit模块的放置被改变为馈送到构建块中的特征图，即，图4b中的顶部青色圆圈LIP替换中的瓶颈-xlogit模块用于替换ResNet和DenseNet中的最大池化，这只是一个3×3卷积。为了更有效的建模和稳定的训练，我们应用仿射实例归一化[40]作为空间归一化和sigmoid函数，在每个logit模块的顶部具有固定的放大仿射实例非-方法Top-1Top-5#参数FLOPs跨步卷积76.4093.1525.6M4.12G平均池化76.9693.3522.8M3.82GDPP（我们的基线结构）76.8793.3022.8M3.83GDPP（[33]中的原始结构）77.2293.6425.6M6.59G带投影的77.4993.8624.7M4.78G带瓶颈的唇缘-6477.9293.9723.2M4.65G带瓶颈的唇缘-12878.1993.9623.9M5.33G带瓶颈的唇-25678.1594.0225.8M7.61G表1：具有不同下采样方法的ResNet-50。该方法使每个特征映射的每个通道上的激活遵循正态分布，然后通过可学习的仿射参数对其进行缩放。空间归一化和重新缩放操作旨在帮助学习极端情况，例如最大池化。这里使用sigmoid函数来保持数值稳定性，固定的放大系数为logits提供了足够大的范围，在整个实验中将其设置为124. 实验为了验证我们的LIP的有效性，我们对ImageNet 1K分类任务[8]和MS COCO检测任务[27]进行了4.1. ImageNet分类实验设置ImageNet 1K分类任务[8]需要处理高分辨率图像的我们使用（LIP-） ResNet 和（LIP-） DenseNet 进行ImageNet分类任务的实验。对于（LIP-）ResNet训练，我们使用8个GPU和256个输入的小批量，每个GPU 32个图像。对于（LIP-）DenseNet训练，我们使用4个GPU和每个GPU的256，64个图像的小批量。我们的训练程序通常遵循配方[10]，但有两个小的修改。一个是我们使用SGD优化器来更新参数与香草而不是Nesterov一个。另一个是10−4的权重衰减应用于所有可学习的参数，包括Batch Normalization的参数。通过将logit模块中的最后一个卷积的参数初始化为0，将所有LIP层初始化为表现得像平均池化。所有结果均报告在单作物验证集试验.4.2. ImageNet上的结果和分析LIPs和不同logit模块的研究。为了与其他池化方法比较，我们用其他池化层替换LIP-ResNet中的所有LIP层，即，平均池化或DPP，并保持窗口大小和步幅的相同配置以进行公平比较。这些基线的构建块注意这些基线33611x1转换1x1转换1x1转换投影Logit模块瓶颈Logit模块1x1，步幅2转换3x3，步幅23x3，步幅2转换唇1x1转换三乘三步二步三乘三步二步LIP平均池/DPP1x1Conv 1x1Conv3x 3，步幅2，平均池/DPP1x1转换1x1转换1x1Conv、3x3Conv1x1转换1x1转换1x1转换一个被屏蔽的IN放大Sigmoid一个被屏蔽的IN放大Sigmoid添加ReLU添加ReLU（一）（b）第（1）款（c）第（1）款（d）其他事项（e）图4：下采样和logit模块的ResNet构建块的结构ResNet构建块具有跨步卷积（a），LIP（b），平均池化或DPP（c）。(d)以及（e）示出了投影和瓶颈logit模块。（e）中的前两个层顶层中的层的组合LIP替换操作以及早期迭代期间的噪声梯度。组合B在训练中失败，尽管我们尝试了各种方法来避免数值问题。消除其他因素，包括感受野和非线性，以与 LIP-ResNet更一致在这项研究中，我们求助于ResNet-50来执行不同池化层之间的比较。结果报告于表1中。首先，具有平均池化的ResNet-50基线降低了参数和FLOP，但仍然在前1精度方面将vanilla ResNet的性能提高这个结果可以归因于步幅卷积中的固定间隔采样问题，并且在[16]中发现了类似的结果。其次，对于我们的下采样方法，具有最简单的投影logit模块的LIP在这些基线上获得了明显的改善（>0. 5%在top-1中）。这表明简单地从投影logit模块学习的重要性对于下采样过程是有益的。第三，通过更强大的logit模块Bottleneck-64，LIP-ResNet进一步提高了投影模型的精度，参数更少，计算成本更低。这表明空间信息有助于设计更好的logit模块。当我们扩展瓶颈logit模块时，性能将达到饱和，并且Bottleneck-128是计算复杂度和识别性能之间的良好折衷，在top-1中提高了 1.79%，在top-5中提高了0.81%。表3：不同的LIP置换位置。组合A代表具有完整7个LIP的ResNet-50（LIP-ResNet w Bottleneck-128），并且E代表香草ResNet。工作我们采用LIP与瓶颈-128 logit模块作为我们的默认选择，在其余的实验。最后，对实例规范化和扩展Sigmoid函数的有效性进行了测试。结果示于表2中。它们的组合通过使LIP能够稳定地近似极端情况（例如最大池化）来提高准确性LIP层在不同位置。表3示出了将不同数量的LIP放置在不同位置的结果。我们可以发现更多的LIP通常有助于更好的结果，但不同位置的LIP可能不会同样地提高性能。LIP作为最大池化替代仅显著提高了前1准确度。我们怀疑，在这一层的logit模块的一个单一的卷积无法编码足够的语义信息，以提供vide强大的logits到LIP。另一个可能的原因是，高分辨率的细节可能有助于细粒度的分类，但不利于粗粒度的。我们还可以发现，在Res4处的LIP是最有效的。这可能是由于该层处的特征包含更多语义并且特征图尺寸对于缩小来说仍然相对较大的事实。对于实际应用，我们建议使用表3中的组合C，因为与vanilla ResNet相比，它的参数更少，并且仅增加了3%的FLOP。一BCD一BCDEAffined INCC最大池化C扩大乙状结肠CCRes3CCTop-178.19N/A77.8177.89第4号决议CCCTop-593.96N/A93.8693.86第5号决议CCCC表2：logit模块上的不同顶层组合Top-1Top-578.1993.9677.8793.9477.7893.8176.9293.3776.4093.15D在前2000次迭代中使用平均池化进行训练#参数23.9M23.8M23.7M23.9M25.6M然后用LIP来避免由于e×p（·）而导致的数值过流FLOPs5.33G4.87G4.26G4.11G4.12G3362骨干AP AP50AP75APsAPm APl更快的R-CNN w FPN结果表 4 ：具有和不具有 LIP 的 ResNet 和 DenseNet 对于ResNet-152，我们采用类似配方2训练的结果。但我们对其余实验的默认选择是完整的LIP模型，即，组合A。不同的网络深度和架构。我们还使用更深的网络评估了LIP-ResNet和LIP-DenseNet，结果总结在表4中。我们发现LIP-ResNet-50的表现与香草相当ResNet-101，只有大约一半的参数和更少的FLOPs。LIP-ResNet-101在前1和前5的准确度上都超过了vanillaResNet- 152（0.84%和0.38%）。对于DenseNet和LIP-DenseNet，结果也是有利的，证明了我们的方法在不同网络架构中的有效性。可视化。如第3.2节所述，LIP使网络具有可变形建模的能力为了说明这一点，我们执行一些LIP层的可视化我们首先计算类激活映射（CAM）[48]，ResNet-50使用LIP、平均池化和跨步卷积进行建模。接下来，我们反向传播CAM中特定位置的激活以获得梯度图，这被称为原始图像背景中特定位置的有效感受野[31]。结果示于图5中。CAM是相似的，但梯度图在三种下采样方法中有很大具有LIP层的模型的有效感受野更紧凑，并且主要集中在前景上，即使当反向传播位置移出前景时（即，图5d）。然而，当将激活从前景中反向传播出来时，平均池化和跨步卷积这一比较显示了LIP层的可变形建模能力。与平均池化和跨越卷积相比，没有区分特征的杂波和背景4.3. MS COCO检测实验装置在验证了LIP对图像分类的有效性之后，我们现在专注于更具挑战性的检测任务。存在微小物体2https://github.com/tensorpack/tensorpack/tree/master/examples/ResNet表5：具有FPN和RetinaNet的更快的R-CNN在COCO2017val集上具有ResNeXt- 101代表[44]中的ResNeXt-64 x4 d-101骨架。在大多数CNN架构中用于检测[23]。这个问题主要是由于在不适当的下采样过程中丢失了小对象的判别信息引起的，这适合于证明我们的LIP的设计。MS COCO检测[27]是一项具有挑战性的任务，其中对象尺度变化非常大，并且检测小对象在最终检测性能中起着至关重要的作用 [35 ， 36] 。我们采用mmdetection代码库[4]进行实验。我们的训练严格遵循mm检测的默认配置，包括使用标准水平翻转增强和ROI对齐将图像的较短尺寸设置为800 [14]。在这个实验中，我们训练了两个检测框架：使用FPN [25]和RetinaNet [26]的更快的R-CNN，在COCO 2017火车集上使用第4.2节中的预训练骨干网络。我们采用所有COCO实验的典型2×训练时间方案。基线结果通过评估在mmdetection model zoo3中发布探测器。使用单尺度测试报告检测性能。4.4. MS COCO结果和分析具有更快R-CNN和FPN的不同主干的结果示于表5中。具有更快R-CNN的LIP-ResNet-50 和LIP-ResNet-101主干在AP中产生了超过基线的1.5%和2.3%的增益，显示了我们的LIP在捕获检测分支的区分特征方面的有效性。它们的改进差距可能归因于这样的事实，即更深的主干提供更多的语义特征，以产生更好的logit用于LIP下采样。对于小物体检测，更深的vanillaResNet仅导致APs的0.2%增益，而LIP-ResNet-101在APs中比LIP-ResNet-50好1.2%。LIP-ResNets在AP中的改善优于vanilla ResNets（2.1%和3.1%）也是值得注意的。这些结果表明，LIP层能够更好地保留微小的微结构的区别特征。3在本文件提交时进行了评估，一些基线结果略高于[4]中正式报告的结果。架构Top-1 Top-5#参数 FLOPsResNet-5076.40 93.1525.6M4.12GLIP-ResNet-5078.19 93.9623.9M5.33GResNet-10177.98 93.9844.5M7.85GLIP-ResNet-10179.33 94.6042.9M9.06GResNet-152*78.49 94.2260.2M 11.58GDenseNet-BC-12175.62 92.568.0M2.88GLIP-DenseNet-BC-121 76.64 93.168.7M4.13GResNet-5037.759.341.121.941.548.7LIP-ResNet-5039.261.242.524.043.150.3ResNet-10139.460.743.022.143.652.1LIP-ResNet-10141.763.645.625.245.854.0ResNeXt-10140.762.144.523.044.553.6RetinaNet结果ResNet-5036.656.638.919.640.348.9LIP-ResNet-5038.058.840.522.641.549.9ResNet-10138.158.140.620.241.850.83363(a)（b）第（1）款(c)（d）其他事项图5：使用不同下采样技术的ResNets的可视化。对于每个子图，从左到右都有ResNet-50的原始图像和LIP，平均池化和步幅卷积的结果。(a)表示考拉的类激活映射（CAM）[48]。(b)（d）表示图像上下文中的有效感受野[31]，即来自CAM中特定位置的反向传播梯度（原始图像中的红色）。对于人类视觉，可视化的对比度降低检测框架骨干APAP50AP75APsAPmAPl更快的R-CNN w FPNResNet-101，带FPN36.259.139.018.239.048.2Mask R-CNN [14]ResNet-101，带FPN38.260.341.720.141.150.2SOD-MTGAN [1]ResNet-101，带FPN41.463.245.424.744.252.6网格R-CNN [30]ResNet-101，带FPN41.560.944.523.344.953.1DCR [5]ResNet-101-可变形，带FPN41.764.045.923.744.753.4TridentNet [22]ResNet-10142.763.646.523.946.656.6Cascade R-CNN [3]ResNet-101，带FPN42.862.146.323.745.555.2更快的R-CNN，带FPN LIPLIP-ResNet-101，带FPN42.064.345.824.745.252.3更快的R-CNN，带FPN LIPLIP-ResNet-101-MD，带FPN43.965.748.125.446.756.3表6：COCO测试开发集的结果。“可变形”表示[6]中的可变形卷积。“MD”表示添加更多的可变形卷积。每个标准的第一个和第二个分别是黑体和下划线。对象单级RetinaNet的结果也验证了LIP层的有效性。为了与最先进的检测器进行比较，我们在Faster R-CNN和FPN框架中使用LIP训练可变形骨干（在[50]中放置更多可变形卷积，但没有调制和特征模仿）结果示于表6中。具有LIP-ResNet-101的检测器通过简单地使用标准检测流水线而无需任何特定设计，与最先进的方法相当。LIP-ResNet-101- MD主干可以进一步将AP提高到43.9%，AP提高到25.4%，在单尺度测试方案下检测小物体时产生新的5. 结论和未来工作在本文中，我们强调空间重要性建模池程序。我们提出了基于局部重要性的局部聚集和归一化（LAN）框架在框架下，我们发现这些层可能会由于使用不正确的下采样重要性图而阻止区分特征。基于这种分析，我们提出了基于本地重要性的池化（LIP），一个概念上简单的，一般的，和有效的下采样方法，学习自适应和判别重要性图的目标具有LIP的网络能够更好地保留可区分的细节，特别是那些微小对象的细节。ImageNet分类任务的实验表明，LIP可以捕获丰富的细节，用于整体图像识别。在COCO检测任务上，LIP使单阶段和两阶段检测框架都能够产生更好的性能，特别是在小对象上。此外，具有LIP-ResNet主干的检测器通过简单地使用标准检测框架在检测小对象在未来，我们计划研究LIP实现的更多方面，如logit模块设计，自适应池大小探索等。同时，我们将验证LIP对更多任务的有效性，例如，姿态估计和图像分割。致谢本工作得到了国家自然科学基金（No.61921006号61321491）、软件新技术与产业化协同创新中心第一作者要感谢南伟和曾秦山的评论和支持。3364引用[1] Yancheng Bai ， Yongqiang Zhang ， Mingli Ding ， andBernard Ghanem.SOD-MTGAN：通过多任务生成对抗网络进行小目标检测。在ECCV，2018。[2] Y-Lan Boureau，Jean Ponce，and Yann LeCun.视觉识别中特征池的理论分析。ICML，2010年。[3] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade R-CNN：深入研究高质量的对象检测。在CVPR，2018年。[4] Kai Chen，Jiaqi Wang，Jiangmiao Pang，Yuhang Cao，Yu Xiong，Xiaoxiao Li，Shuyang Sun，Wansen Feng，Ziwei Liu ， Jiarui Xu ， Zheng Zhang ， Dazhi Cheng ，Chenchen Zhu ， Tian-heng Cheng ， Qijie Zhao ， BuyuLi，Xin Lu，Rui Zhu，Yue Wu，Jifeng Dai，JingdongWang ， Jianping Shi ， Wanli Ouyang ， Chen ChangeLoy，and Dahua Lin.检测：打开mm- lab检测工具箱和基准。在arXiv，2019年。[5] BowenCheng ， YunchaoWei ， HonghuiShi ， Roge´rioSchmidtFeris，Jinjun Xiong， and Thomas S. 煌重温RCNN：唤醒更快的RCNN的分类能力。在ECCV，2018。[6] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。InICCV，2017.[7] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在CVPR，2005年。[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Fei-Fei Li. Imagenet：一个大规模的分层图像数据库。CVPR，2009。[9] 罗斯湾娘娘腔。快速R-CNN。在ICCV，2015年。[10] PriyaGoyal ， PiotrDolla´r ， RossB.Girshick ，PieterNoord-huis， Lukasz Wesolowski ， Aapo Kyrola ，Andrew Tulloch，Yangqing Jia，and Kaiming He.精确的大批量SGD：1小时内训练imagenet在arXiv，2017年。[11] 本杰明·格雷厄姆。分数最大池化。InarXiv，2014.[12] 山姆·格罗斯和迈克尔·威尔伯训练和调查残余网。https://github.com/facebook/fb.resnet.torch.[13] CaglarGu lcehre ， KyungHyunCho ， Razv anPascanu ，andYoshua Be

下载后可阅读完整内容，剩余1页未读，立即下载