AugFPN：改进多尺度特征学习用于目标检测

68 浏览量更新于2023-10-25 收藏 801KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12595AugFPN：改进多尺度特征学习用于目标检测郭朝旭1、2范斌1、4张倩3项世明1、2潘春红11中国科学院自动化研究所模式识别国家实验室2中国科学院大学人工智能学院3地平线机器人4中国科学技术大学自动化与电气工程学院{chaoxu.guo，smxiang，chpan}@ nlpr.ia.ac.cnbin.fan，{www.example.com}@ ieee.org，{qian01.zhang}@ horizon.ai摘要当前最先进的检测器通常利用特征金字塔来检测不同尺度的对象。其中，FPN是通过多尺度特征求和构建特征金字塔的代表性著作之一。然而，设计缺陷阻碍了多尺度特性的充分利用。本文首先分析了FPN中特征金字塔的设计缺陷，然后提出了一种新的特征金字塔结构 AugFPN 来解决这些问题。具体而言，AugFPN由三个组件组成：一致性监督、剩余特征增强和软RoI选择。AugFPN通过一致监督在特征融合之前缩小不同尺度特征之间的语义差距在特征融合中，利用残差特征增强技术提取比率不变的上下文信息，以减少最高金字塔层特征图的信息损失。最后，采用软ROI选择算法对融合后的ROI特征进行自适应学习.通过在 Faster R-CNN 中将 FPN 替换为 AugFPN ，当使用ResNet 50和MobileNet-v2作为骨干时，我们的模型分别实现了2.3和1.6个点的平均精度（AP）此外，当使用ResNet50作为骨干时，AugFPN将RetinaNet提高了1.6点AP ，将 FCOS 提高了 0.9 点 AP 。代码可在https://github.com/Gus-Guo/AugFPN上获得。1. 介绍随着深度卷积网络（ConvNets）的显著进步，在对象检测方面取得了显着进展。许多探测器[10，34，9，26，31，13，22，23，12]已提出稳步推进国家的最先进的。在这些检测器中，FPN [22]是一种简单有效的两阶段目标检测框架。具体而言，FPN在范斌为通讯作者图1.特征金字塔网络存在三个设计缺陷：1）特征求和前不同层次特征间的语义间隙，2）最高金字塔层次特征的信息丢失，3）启发式ROI分配。通过将语义上强的特征从高层传播到较低层的特征，来改进ConvNet中固有的特征层次结构。通过改进具有强语义的多尺度特征，目标检测性能得到了显著提高。然而，在FPN中的特征金字塔内存在一些设计缺陷，如图1所示。1.一、FPN中的特征金字塔基本上可以分为三个阶段：（1）特征融合前，（2）自顶向下的特征融合，（3）特征融合后。我们发现，每个阶段都有一个内在缺陷，如下所述：不同级别的特征之间的语义差距。是-在进行特征融合之前，不同层次的特征独立地进行1×1卷积层以减少特征通道，而不考虑这些特征之间的大的语义间隙。由于语义信息的不一致性，直接融合这些特征会降低多尺度特征表示的能力。最高级特征图的信息丢失。在特征融合中，特征以自顶向下的路径传播，并且可以利用来自高层特征的更强语义信息来改进低层特征。绝不-12596更少的情况下，最高金字塔等级处的特征反而由于减少的通道而丢失信息。信息损失可以通过组合由全局池提取的全局上下文特征[30]但是这种将特征图融合到一个向量中的策略可能会丢失空间关系和细节，因为多个对象可能出现在一个图像中。ROI的启发式分配策略。特征融合后，每个对象的建议是细化的基础上汇集的特征网格从一个特征级别，这是根据建议的尺度选择。然而，忽略其他层次的特征可能有利于对象分类或回归。考虑到这个问题，PANet [25]将所有金字塔级别的RoI特征池化，并在将它们与独立的全连接层相适应后将它们与最大操作然而，最大融合将忽略具有较小响应的特征，这些特征也可能是有帮助的，并且仍然没有充分利用其他级别的特征。同时，额外的全连接层显著增加了模型参数。在本文中，我们提出了AugFPN，一个简单而有效的特征金字塔，它集成了三个不同的组件来分别处理上述问题首先，提出了一致性监督方法，通过对横向连接后的特征图施加相同的监督信号，使这些特征图包含相似的语义信息。其次，采用比率不变的自适应池化方法提取不同的上下文信息，以残差的方式减少特征金字塔中最高层特征的信息损失我们将此过程命名为残差特征增强。第三，引入软ROI选择，以更好地利用来自不同金字塔级别的ROI特征，并产生更好的ROI特征，用于后续的位置细化和分类。在没有额外功能的情况下，当使用ResNet 50和ResNet 101作为主干时，基于AugFPN的Faster R-CNN的平均精度（AP）分别比基于FPN的同行高出2.3和1.7。此外，AugFPN将骨干网改为MobileNet-V2时的整体性能提高了1.6个AP，这是一个轻量级和高效的网络。AugFPN也可以扩展到一级检测器，只需进行微小的修改。用AugFPN代替FPN后，RetinaNet和FCOS分别提高了1.6AP和0.9AP，体现了AugFPN的通用性我们将我们的贡献总结如下：• 我们揭示了FPN中的三个设计缺陷，这些缺陷阻止了多尺度功能的充分利用。• 提出了一种新的特征金字塔网络AugFPN来解决这些问题，分别与一致性监督，剩余特征增强，软ROI选择。• 我们评估配备各种探测器的和骨干上的MS COCO和它一贯带来显着的改进，基于FPN的检测器。2. 相关工作深层物体探测器。当代的目标检测方法几乎遵循两个范式，两阶段和一阶段。作为两阶段检测方法的开创性工作[10，9，34，4，22，1，36，20，21，29]，R-CNN [10]首先采用选择性搜索[38]来生成区域建议，然后通过卷积网络提取区域特征来细化这些建议。为了提高训练和推理速度，SPP [14]和Fast R-CNN [9]首先提取整个图像的特征图，然后分别使用空间金字塔池和RoI池生成区域特征。最后，区域特征被用来细化建议。FasterR-CNN [34]提出了一个区域建议网络，并开发了一个端到端的可训练检测器，这显著提高了性能并加快了推理速度。为了追求目标检测的尺度不变性，FPN [22]基于卷积网络的固有特征层次构建了一个网络内特征金字塔，并根据区域建议的尺度在不同的金字塔级别进行预测。RoI Align [13]通过解决RoI池化的量化问题，极大地改善了对象检测和实例分割。可变形网络[5，43]通过对对象的几何结构进行建模，显着提高了对象检测的性能Cascade R-CNN [1]在Faster R-CNN中引入了多阶段改进，并实现了对对象位置的更准确预测。与两级检测器相反，一级检测器[26，31，6，32，23，18，24，33，40，42]效率更高，但准确度较低。SSD [26]将锚框密集地放置在多尺度特征上，并基于这些锚点进行预测。RetinaNet [23]利用类似于FPN的特征金字塔作为骨干，并引入了一种新的焦点损失来解决简单和困难示例的不平衡问题。ExtremeNet[42]将对象检测问题建模为检测对象的四个极值点。这些工作从不同的角度取得了重大进展。在本文中，我们研究了更好地利用多尺度特征。深度监督。深度监督[16，19，41，7]是一种广泛使用的技术，用于解决梯度消失或增强中间层的特征表示的常见问题。Huang等人。 [16]通过在不同级别同时训练它，将具有各种资源需求的多个分类器合并到单个深度网络中。PSPNet [41]在中间层上引入了额外的像素级损失，以降低优化难度。最近Nas-FPN [7]在所有中间金字塔网络之后附加分类器和回归头，目标是实现随时检测。如违反本12597预测残差特征增强图2.基于AugFPN的检测器的整体流水线。（1）-（3）是AugFPN的三个主要组成部分：一致性监督、剩余特征增强和软RoI选择。为简单起见，未显示特征求和后的3×3卷积层作品中，我们在横向连接后的各个金字塔层次上对特征应用实例级监督信号，旨在缩小它们之间的语义差距，使特征更适合后续的特征求和。上下文利用。几种方法已经证明了上下文对对象检测[8，30，39]和分割[17，27，41]的重要性。Deeplab-v2[3]提出了atrous卷积来提取多尺度上下文，PSP-Net [41]利用金字塔池来获得分层全局上下文，这两种方法都大大提高了语义分割的质量与之不同的是，我们执行比率不变的自适应池化来生成不同的空间上下文信息，并利用它们来以残差的方式减少最高金字塔级别的特征的通道中的信息损失。ROI分配策略。FPN [22]从一个特定的金字塔级别中汇集ROI特征，该金字塔级别是根据ROI的规模选择的。然而，在该策略下，具有相似尺度的两个建议可以被分配到不同的特征级别，这可能产生次优结果。为了解决这个问题，PANet池RoI功能从所有金字塔-中间层，并融合他们的最大操作后，适应他们与完全连接的层。PANet和我们的工作有一个明显的区别，我们提出了一种依赖于数据的方法来生成自适应权重，并根据权重从各个层次吸收这使得不同级别的特征能够被更好地利用。此外，我们的工作需要更少的参数，因为不需要额外的全连接层来适应ROI功能。3. 方法AugFPN的总体框架如图所示二、在FPN的设置之后[22]，用于构建的特征金字塔表示为{C2，C3，C4，C5}，其对应于具有步幅{4，8，16，32}像素在特征层次结构w.r.t.的输入图像。{M2，M3，M4，M5}是在横向连接之后具有减少的特征通道的特征。{P2，P3，P4，P5}是由特征金字塔产生的特征。AugFPN的三个组成部分将在以下小节中讨论。3.1. 一致性监管FPN利用网络内特征层次结构，该网络内特征层次结构产生具有不同分辨率的特征图以构建特征金字塔。为了整合多尺度上下文信息，FPN通过自上而下的上采样和求和来融合不同尺度的特征。然而，不同尺度的特征包含不同抽象层次的信息，它们之间存在着较大的语义鸿沟。虽然FPN采用的方法简单有效，但融合具有大语义间隙的多个特征将导致次优特征金字塔。这启发我们提出一致监督，在融合之前对多尺度特征强制相同的监督信号，目的是缩小它们之间的语义差距。具体来说，我们首先基于多尺度特征构建特征金字塔{C2， C3， C4， C5}来自主链。然后将区域投影网络（RPN）附加到所得到的特征金字塔{P2，P3，P4，P5}以生成多个ROI。为了进行一致性监督，每个RoI都映射到所有要素级别，并且每个级别的RoI要素通过RoI-Align [13]获得{M2，M3，M4，M5}之后，将多个分类和箱回归头附接到这些特征以产生辅助损失。这些分类和回归头的参数在不同级别之间共享，这可以进一步迫使不同的特征图学习相似的语义信息残差特征增强C5conv1x1M5C4P5M4P4C3自适应空间融合M3C2（一）P3（三）M2P2预测预测预测预测M6自适应空间融合比率不变自适应池（二）12598C×h×w总和N×（C×h×w）分裂自适应空间融合数控×高数控×高C×h×w上采样上采样上采样数控×高×宽Concat重复N×H×W乙状N×H×WConv3x3C×h×wConv1x14C×1×1 C/4×1×1Conv1x1Conv1x14C×1×1GMPS形重复4C×h×w 4 ×（C×h×w）C×h×w4C×h×wConcat拆分和GMPConcat全局最大池化Hadamard积(a)（b）第（1）款图3. (a)是融合不同的上下文特征和自适应空间融合结构的过程。(b)自适应通道融合的细节。在（a）中，取决于输入的大小来决定是否使用虚线框中的上采样块。除了相同的监控信号。为了更稳定的优化，使用权重来平衡一致性监督产生的辅助损失和原始损失。形式上，rcnn头的最终损失函数公式如下：Σ5另一方面，M5由于特征通道减少而遭受信息损失，并且仅包含与在其他级别上得到的特征不兼容的单一尺度上下文信息基于这一观察，我们提出了残差特征增强来改进M5Lrcnn= λM=2∗∗（Lcls，M（pM，t）+β[t∗>0] Lloc，M（ dM，b））通过利用剩余分支将不同的空间上下文信息灌输到原始分支中。我们预计Σ5+P=2∗∗（Lcls，P（p，t）+β[t∗>0] Lloc，P（ d，b））。（一）空间上下文信息可以减少M5通道中的信息损失，同时提高所得特征金字塔的性能。为此我们Lcls，M和Lloc，M是与附加到{M2，M3，M4，M5}的辅助损失相对应的目标函数，而Lcls，P和Lloc，P是特征金字塔{P2，P3，P4，P5}上的原始损失函数。pM，dM和p，d分别是中间层和最终金字塔层的预测。t和b分别是groundtruth类标签和回归目标。λ是用于平衡辅助损耗和原始损耗的权重β是用于平衡分类和定位损失的权重[0]的定义如下： .1，t≥0首先产生具有不同尺度（α1× S，α2× S，.， αn×S），在尺度为S=h×w的C5上进行比率不变的自适应池化。然后，每个上下文特征独立地经历1 × 1卷积层，以将特征通道维度减少到256。最后，它们通过双线性插值被上采样到S的尺度以用于随后的融合。考虑到插值所造成的混叠效应，我们设计了一个自适应空间融合（ASF）模块来自适应地组合这些上下文特征，而不是简单的求和。ASF的详细结构如图3（a）所示。具体而言，ASF将上采样要素作为输入，并生成一个[t> 0]=0，t=0（2）每个特征空间权重图。该权重用于将上下文特征聚合到M6中，在测试阶段，辅助支路被关闭，并且只有特征金字塔之后的分支用于最终预测。因此，一致性监督在推理过程中3.2. 残差特征增强在FPN中，最高层M5的特征图自顶向下传播，并逐渐与较低层{M4，M3，M2}的特征图融合。一方面，较低层次的特征图被增强了来自较高层次的语义信息，并且由此产生的特征自然地被赋予了不同的上下文信息。对多尺度上下文信息。ASF生成M6后，通过求和与M5最后，将3×3卷积层附加到每个特征图以构建特征金字塔{P2，P3，P4，P5}。比率不变自适应池与PSP不同[41]因为PSP将特征池化为具有固定大小的多个特征，而比率不变的自适应池化考虑了图像的比率，这比目标检测更可取。此外，我们融合的ASF功能，而不是直接卷积的级联功能，这是在烧蚀研究的实验中所示的较差。∗12599方法骨干附表APAP50AP75APSAPMAPL[32]第三十二话暗网-19-21.644.019.25.022.435.5SSD512 [26]ResNet-101-31.250.433.310.234.549.8[23]第二十三话ResNet-101-FPN-39.159.142.321.842.750.2更快的R-CNN [22]ResNet-101-FPN-36.259.142.321.842.750.2[29]第二十九话ResNet-50-FPN1x38.759.942.022.541.148.7[29]第二十九话ResNet-101-FPN1x40.361.343.922.943.151.0可变形R-FCN [4]inception-ResNet-v2-37.558.040.819.440.152.5Mask R-CNN [13]ResNet-101-FPN-38.260.341.720.141.150.2[28]第二十八话ResNet-101-FPN2x41.560.944.523.3144.953.1视网膜网 *ResNet-50-FPN1x35.955.938.519.738.944.9视网膜网 *MobileNet-v2-FPN1x32.752.034.717.434.642.3FCOS*ResNet-50-FPN1x37.056.639.420.839.846.4更快的R-CNNResNet-50-FPN1x36.558.739.121.539.744.6更快的R-CNNResNet-101-FPN1x38.960.942.322.442.448.3更快的R-CNNResNet-101-FPN2x39.761.443.322.342.950.4更快的R-CNNResNext-101-32x4d-FPN1x40.562.844.024.343.950.2更快的R-CNNResNext-101-64x4d-FPN1x41.764.145.425.045.152.1更快的R-CNNMobileNet-v2-FPN1x32.654.634.318.634.541.0掩码R-CNN*ResNet-50-FPN1x37.5（34.4）59.4（56.3）40.6（36.6）22.1（18.6）40.6（37.2）46.2（44.5）掩码R-CNN*ResNet-101-FPN1x39.8（36.3）61.6（58.5）43.3（38.7）22.9（19.2）43.2（39.3）49.7（47.4）掩码R-CNN*ResNet-101-FPN2x40.8（36.9）62.2（59.1）44.6（39.6）22.7（19.1）44.0（39.9）51.8（48.9）RetinaNet（我们的）ResNet-50-AugFPN1x37.5[+1.6]58.440.121.340.547.3RetinaNet（我们的）MobileNet-v2-AugFPN1x34.0[+1.3]54.036.018.636.044.0FCOS（我们的）ResNet-50-AugFPN1x37.9[+0.9]58.040.421.240.547.9更快的R-CNN（我们的）ResNet-50-AugFPN1x38.8[+2.3]61.542.023.342.147.7更快的R-CNN（我们的）ResNet-101-AugFPN1x40.6[+1.7]63.244.024.044.151.0更快的R-CNN（我们的）ResNet-101-AugFPN2x41.5[+1.8]63.945.123.844.752.8更快的R-CNN（我们的）ResNext-101-32x4d-AugFPN1x41.9[+1.4]64.445.625.245.452.6更快的R-CNN（我们的）ResNext-101-64x4d-AugFPN1x43.0[+1.3]65.646.926.246.553.9更快的R-CNN（我们的）MobileNet-v2-AugFPN1x34.2[+1.6]56.636.219.636.443.1面具R-CNN（我们的）ResNet-50-AugFPN1x39.5[+2.0]（36.3[+1.9]）61.8（58.7）42.9（38.8）23.4（19.7）42.7（39.2）49.1（47.5）面具R-CNN（我们的）ResNet-101-AugFPN1x41.3[+1.5]（37.8[+1.5]）63.5（60.4）44.9（40.4）24.2（20.4）44.8（41.0）52.0（49.8）面具R-CNN（我们的）ResNet-101-AugFPN2x42.4[+1.6]（38.6[+1.7]）64.4（61.4）46.3（41.4）24.6（20.6）45.7（41.6）54.0（51.4）表1.与COCO测试开发的最新方法进行比较符号“*”表示我们的用于掩模R-CNN，（）中的结果表示相应的掩码结果。[]中的数字代表相对改善。训练时间表遵循Detectron [11]的设置。3.3. 软ROI选择在FPN中，每个ROI的特征是通过在一个特定的特征水平上进行池化来获得的，该特征水平是根据该ROI的规模来选择的。通常，小的ROI被分配给较低级别的特征，而大的ROI被分配给较高级别的特征在这种策略下，具有相似大小的两个这可能会产生次优结果，因为哪个特征级别包含ROI的最重要信息是不明确的。设计一个完美的策略来分配ROI是具有挑战性的。PANet [25]通过汇集所有级别的RoI特征并使用完全连接的层适应的最大RoI特征它提高了实例分割的性能，但额外的全连接层显着增加了参数此外，最大操作仅选择具有最高响应的特征点，并且忽略在其他级别中具有较低响应的特征，这也可能有利于识别。这可能会阻碍不同层次的功能得到充分利用。因此，我们提出了软ROI选择，它通过参数化ROI池化过程，从所有金字塔级别的特征中学习生成更好的Soft RoISelection介绍自适应权重，以更好地衡量不同级别的ROI区域内特征的重要性最后的ROI特征生成的基础上的自适应权重，而不是启发式ROI分配或最大操作。具体来说，我们首先池功能，从所有的金字塔水平为每个ROI。然后，我们利用自适应空间融合模块（ASF），而不是像PANet那样使用完全连接的层来该方法从不同层次对RoI特征生成不同的空间权重图，并采用加权聚合的方法对RoI特征进行融合。ASF仅由两个卷积层组成，并且比PANet中使用的额外全连接层消耗更少的参数。通过这种方式，Soft RoI Selection将RoI池化过程参数化它可以通过与网络中的其他组件的反向传播来学习，并且不依赖于设计的策略。4. 实验4.1. 数据集和评估指标我们在MS COCO检测数据集上进行了80个类别的所有实验。包含115k图片12600用于训练（ train2017 ）， 5k 图像用于验证（val2017），20k图像用于测试（testdev）。testdev的标签不会公开发布我们在train2017上训练模型，并在val2017上报告消融研究的结果最终结果在testdev上报告。所有报告的结果都遵循标准的COCO风格的平均精度（AP）指标。4.2. 实现细节所有实验均基于mmdetecton [2]实现。在[20，22，37]之后，输入图像的较短尺寸默认情况下，我们使用8个GPU（每个GPU 2个图像）训练模型12个epoch。初始学习率被设置为0.02，并且它以0.1分别在第8和第11个时期之后。λ在Equ. 1设为0.25;对于比率不变自适应池化的设置，使用值为0.1、0.2和0.3如果没有特别指出，则分别选择。本文中的所有其他超参数都遵循mm检测。4.3. 主要结果在本节中，我们在 COCO 测试开发集上评估AugFPN，并与其他最先进的一阶段和两阶段检测器进行比较。为了进行公平的比较，我们重新实现了配备FPN的相应基线方法.所有结果示于表1中。通过将FPN替换为AugFPN，使用ResNet 50作为骨干的FasterR-CNN（表示为ResNet 50-AugFPN）达到38.8 AP，比基于ResNet 50-FPN的Faster R-CNN高2.3点。此外，AugFPN可以始终如一地带来不可忽视的性能，即使有更强大的骨干网络。例如，当使用ResNext 101 - 32 x4d和ResNext 101 - 64 x4 d作为特征提取器时，我们的方法仍然分别将性能提高了1.4和1.3 AP。显然，使用AugFPN的Faster R-CNN在使用ResNet50等强大模型作为主干时显著改善了FPN。现在我们测试AugFPN是否适合轻量级模型，即MobileNet-V2[35] 。如表 1 所示，在 1× 学习速率计划下，具有MobileNet-v2-AugFPN 的更快 R-CNN 的性能超过MobileNet-v2-FPN 1.6 AP。对于单阶段检测器，我们在两种不同类型的检测器上验证了AugFPN的有效性。基于锚的RetinaNet [23]和无锚FCOS [37]。由于在这两个检测器中不存在ROI的概念，因此在这种情况下不包括软ROI选择。因此，在训练阶段，一致性监督模块使用检测器的输出而不是RPN。如表1所示，当使用ResNet 50或MobileNet-v2作为骨干网时，RetinaNet可以分别提高1.6 AP和1.3AP。与此同时，FCOS从2012年的37.9 AP37.0用AugFPN替换FPN时的AP。改进表明，其他两个组件仍然改善了CSRFASRSAPAP50AP75APsAPmAPl36.358.339.021.440.346.6✓37.259.240.121.840.947.8✓37.359.840.422.541.347.2✓37.159.140.121.841.347.5✓ ✓37.76040.822.841.448.4✓ ✓38.060.341.522.941.948.0✓ ✓37.960.340.723.641.847.9✓ ✓ ✓38.761.241.924.142.549.5表2.每个组件的效果结果报告于COCOval 2017。CS：一致监督，RFA：剩余特征增强，SRS：软ROI选择特征金字塔的特征表示，即使不包括软RoI选择。最后，我们在Mask R-CNN上评估AugFPN。通过将FPN替换为AugFPN，使用ResNet50的Mask RCNN在检测上提高了2.0 AP，在物体分割上提高了1.9 AP。当使用ResNet101作为主干时，AugFPN在检测和实例分割上的改进分别达到1.5AP和1.5AP。从表1中可以看出，AugFPN在各种骨干、检测器甚至不同的任务上带来了一致的这验证了AugFPN的鲁棒性和泛化能力4.4. 消融研究在本节中，我们进行了广泛的消融实验，以分析我们提出的方法中各个组件的影响。重要性消融研究的每个件. 为了分析AugFPN中各组成部分的重要性，逐步将一致性监督、剩余特征增强和软ROI选择应用到模型中，以验证模型的有效性。同时，还介绍了不同组件组合所带来的所有消融研究的基线方法是使用ResNet 50-FPN的 Faster R-CNN所有结果见表2。如表2所示，一致性监督使基线方法提高了0.9 AP。这得益于一致监督缩小了横向连接后特征之间的语义间隙，同时提高了它们的语义表征能力。值得注意的是，一致监督并没有在推理中引入额外的参数。因此，将其添加到任何其他基于FPN的检测模型中是便宜的。剩余特征增强将检测性能从36.3 AP 提高到37.3AP。可以看出，小、中、大尺度下的目标结果都得到了改善，这意味着添加到M5中的互补信息也有利于低层特征图的生成，12601设置λAPAP50AP75APsAPm APl无监督0.0 36.3 58.3 39.0 21.4 40.3 46.6单级1.236.758.539.721.340.147.3单级1.037.058.940.221.840.447.5单级0.536.958.740.021.740.947.4单级0.2536.758.739.821.540.347.2各级0.536.958.839.921.840.747.1各级0.2537.259.240.121.840.947.8各级0.12537.158.940.122.340.947.4表3.COCO一致性监督机制的消融研究val2017.融合型合并类型αAPAP50AP75APsAPmAPl基线-36.358.339.021.440.346.6总和GMP-34.556.636.821.938.342.4总和间隙-36.859.339.722.140.946.7总和RA-AP0.1,0.2,0.337.159.839.922.741.147.3ASFRA-AP0.137.159.640.222.340.947.2ASFRA-AP0.1,0.237.259.440.122.441.147.7ASFRA-AP0.1,0.2,0.337.359.840.422.541.147.4ASFRA-AP0.1,0.2,0.3,0.437.459.940.522.541.147.9ASFRA-AP0.1,0.2,0.437.359.740.222.941.347.2ASFRA-AP0.1,0.2,0.537.259.740.322.241.147.0ASFPSP-37.059.540.122.840.947.3PSPPSP-36.959.539.622.340.946.8表4. 2017年在COCO上进行的剩余功能增强消融研究。GMP、GAP是指全球最大合并量和全球平均池。RA-AP表示比率不变平均池化。ASF是Adaptive Spatial Fusion的缩写。证明了特征金字塔的特征表示。软RoI选择为基线方法带来0.8 AP的改进。具体而言，APm（+1.0 AP）和APl（+0.9 AP）的改善对最终改善贡献最大。这些结果表明，自适应空间融合，使较大的ROI，这是原来分配给较高的功能水平，将功能从较低的水平，包含更多的空间细节信息。当结合三个组成部分中的任何两个时，基线方法的改进要高得多。例如，一致的监督和软ROI选择一起可以导致1.7 AP改进。当三个成分都被整合到基线方法中时，它可以获得38.7 AP，其中AP改善2.4。这些结果表明，这三个组成部分是相辅相成的，并解决不同的问题，在FPN。一致性监督的消融研究。表3中给出了与三种一致性超视设置相关的实验结果。第一个设置是基线方法，其中，1被设置为零。第二种设置是单级监督，其仅根据FPN中ROI的分配策略将监督信号应用于ROI被分配到的特征图[22]。第三个设置是所有级别的监督，将监督信号强制执行到所有级别的特征图。当采用单水平监督时，将λ设为1.0，基线法可提高0.7 AP当λ被设置为其他值时，改善变得较小。通过在各级特征图上施加监督信号，各级监督比单级设置和基线方法获得更好的效果。可以看出当λ为0.25时，所有水平设置分别比单水平设置和基线模型带来0.5和0.9所有层次设置的优越性验证了强制所有层次的特征图学习相似的语义信息是缩小它们之间语义差距的有效实践，并提高了结果特征金字塔的性能。残留特征的消融研究增强。剩余特征增强（RFA）的消融研究结果如表4所示。我们首先探索池类型的影响，通过使用全局池，而不是比率不变的自适应池。由于只有一个分支，因此不采用自适应空间融合（ASF）。在实验中，测试了两种类型的全局池，全局最大池（GMP）和全局平均池（GAP）从表4所示的结果中，我们观察到GMP劣于GAP。GAP算法使基线算法提高了0.5AP，而GMP算法反而降低了精度，这意味着平均池化比最大池化更鲁棒，因为最大池化的输出可能会受到特征图中峰值噪声的极大干扰。基于这一观察，我们用比率不变的自适应平均池化（RA-AP）代替GAP。我们首先选择三个α的α设置，其值分别为0.1、0.2和0.3。不同α设置的影响将在后面讨论。为了进行公平的比较，池化的上下文特征直接通过求和而不是ASF来融合如表4中的第四行所示，RA-AP相对于基线方法和GAP带来0.8AP和0.3AP的改进，这验证了由剩余分支带来的多样化上下文通过使用相同的α设置将ASF与RA-AP相结合，最终结果可以进一步提高到37.3 AP，比基线方法高出1.0 AP。还研究了不同α设置的影响。虽然mAP随着α数量的增加而增加，但从表4中可以看出，我们的最终模型采用了三个α的设置，以便在复杂性和准确性之间进行更好的权衡。此外，我们探讨了不同的α值如何影响性能，实验结果如表4的第四部分所示。当α的值被设置为其他值时，性能甚至更差或没有显示为了进一步验证RFA的有效性，我们进行了实验，其中RFA的组件逐渐被PSPNet[41]的组件取代。实验结果表明，RFA不干扰原始特征比例，自适应地吸收特征，能保留更多的有利于识别的软RoI选择的消融研究。我们首先研究不同的方法融合感兴趣区功能。第一个是sum fusion，第二个是maxfusion。此设置中的最大融合与自适应12602图4.使用软RoI选择从每个金字塔级别汇集的要素比率。从左到右的数字对应于最初分配给P2-P5的ROI。结果在COCOval 2017上获得。设置融合型APAP50AP75APmAPl基线36.3 58.3 39.0 21.4 40.3 46.6来自所有级别的特征共同贡献以生成更好的ROI特征，这表明来自所有级别的特征，表5.COCO上软ROI选择的烧蚀研究val2017. SRS 、 ACF 和 ASF 是 Soft RoI Selection 、 AdaptiveChannel Fusion和Adaptive Spatial Fusion re-establishment的缩写。PANet [25]中的池化是我们不引入额外的全连接层来适应RoI特征，因为它会显着增加参数。第三个是自适应信道融合（ACF），如图3（b）所示。它受到SE模块的启发[15]，但从渠道重要性的角度融合不同的RoI特征第四个是自适应空间融合（ASF）模块，如图3（a）所示。这些方法的实验结果示于表5中。从结果可以看出，和融合和最大融合分别使基线法提高了0.3和0.2AP。通过ACF自适应融合RoI特征，基线方法获得了0.7AP的改进。当ACF替换为ASF（SoftRoI Selection的设置）时，最终模型达到37.1 AP，比基线方法高0.8 AP。这些结果表明，通过使RoI特征选择的过程能够与其他组件一起学习此外，我们还在PANet中实现了自适应池，它的效果更差，但消耗的参数比我们多得多（38.53M vs 0.27M）。为了分析ASF吸收的不同级别特征的比例，我们将val2017上的RoI提案根据最初分配的级别分为四个级别。对于每个ROI，我们对ASF生成的每个权重图上的所有位置进行平均，并获得对应于四个特征级别的四个比率。最后，对于属于某个级别的所有ROI，在这些ROI上分别平均四个比值。对应于四个金字塔级别的结果如图4所示。显然最初分配给P3-5的RoI都需要来自P2的非常详细的外观信息，这些信息可能由于下采样而丢失。4.5. 运行时分析我们还测量了FPN被AugFPN取代时的训练和测试时间。具体地，使用ResNet 50-AugFPN的Faster-RCNN的训练时间约为1.1小时，使用ResNet 50-FPN的Faster-RCNN的训练时间约为1.1小时。0.9 COCO数据集上每个时期的小时，具有相同的批大小16。至于推理时间，AugFPN可以以11.1 fps运行，FPN可以以13.4 fps运行，用于800像素的较短尺寸推理时间是COCOval5000分割的平均推理时间，包括数据加载、网络转发和后处理的时间。所有运行时都在Tesla V100上进行了测试。5. 结论在本文中，我们分析了固有的问题，随着FPN和发现，多尺度功能没有得到充分利用。基于这一观察，我们提出了一个新的特征金字塔网络AugFPN，以进一步挖掘多尺度特征的潜力。通过集成三个简单而有效的组件，即一致性监督、残差特征增强和软ROI选择，AugFPN可以在具有挑战性的MS COCO数据集上大幅改进基线方法。确认这项工作得到了新一代人工智能重大项目的支持。2018AAA0100400 ，国家自然科学基金项目61876180，61573352，91646207，61976208，和61773377，青年精英科学家赞助程序通过铸造（ 2018QNRC001 ），北京市自然科学基金项目4162064。SRSSRS总和Max36.636.559.058.539.139.222.321.640.640.246.446.9ELS有利于每个ROI的识别。可以SRSACF37.059.239.822.041.246.8看到最初分配给级别P2的ROI仍然重新，SRSASF37.159.140.121.841.347.5从P5中获取更多的语义信息，PanetMax36.959.039.721.640.747.5从更高的层次传播。同时12603引用[1] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：深入研究高质量的对象检测。在CVPR，2018年。2[2] Kai Chen，Jiangmiao Pang，Jiaqi Wang，Yu Xiong Li，Shuyang Sun，Wansen Feng，Ziwei Liu，Jianping Shi，Wanli Ouyang，Ch

下载后可阅读完整内容，剩余1页未读，立即下载