特征金字塔网络引入后，大规模目标检测性能下降的问题及解决方案

22 浏览量更新于2023-12-01 收藏 927KB PDF 举报

目标检测

性能提升

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文你应该看所有的物体金振超1人，于东东2人，宋陆川3人，袁泽焕2人，于乐泉1人1香港大学网址：blwx96@connect.hku.hk，lqyu@hku.hk2字节跳动{yudongdong，yuanzehuan} @ bytedance.com罗切斯特大学lsong11@ur.rochester.edu抽象的。特征金字塔网络（FPN）是目标检测器的关键组成部分之一。然而，一个长期困扰研究人员的难题是，引入FPN后，大规模目标的检测性能通常会受到为此，本文首先在检测框架中重新审视了FPN，并从优化的角度揭示了FPN成功的本质。然后，我们指出，大规模目标的性能下降是由于不适当的反向传播路径后，集成FPN的出现。它使得每一级骨干网只具有查看一定尺度范围内对象基于这些分析，提出了两种可行的策略，使每一级的骨干网，看看所有的对象在基于FPN的检测框架。具体地说，一种是引入辅助目标函数，使每个骨干层在训练时直接接收不同尺度对象的反向传播信号。另一个是以更合理的方式构建特征金字塔，以避免不合理的反向传播路径。COCO基准上的大量实验验证了我们的分析和我们的方法的有效性在没有花里胡哨的情况下，我们证明了我们的方法在各种检测框架上实现了坚实的改进（超过2%）：一阶段，两阶段，基于锚的，无锚的和基于transformer的检测器4。关键词：目标检测，特征金字塔网络1介绍随着深度神经网络的发展，近年来在目标检测方面取得了显著进展，目标检测旨在检测预定义类别的目标最先进的检测器[2，9，14，39，45]成功的一个共同信念是使用特征金字塔网络（FPN）[21]。尽管令人印象深刻，但在引入FPN后，*Correspondent author.4我们的代码将在www.example.com上提供https://github.com/CharlesPikachu/YSLAO。arXiv：2207.07889v1 [cs.CV] 2022年73+v：mala2255获取更多论文2Zhenchao Jin，et al.MMDetection检测器2图1.一、基于 M M D e t e c t i o n [ 4 ] 和 D e t e c t r o n 2 [ 4 2 ] 工具箱比较ResNet-50-DC 5和ResNet-50- FPN之间的检测性能。采用的检测器是Faster R-CNN [31]。检测器在COCO 2017训练集上进行训练，并在COCO 2017验证集上进行评估[23]。总体检测性能的提高是建立在小目标平均精度（APS）的提高和大目标平均精度（APL）的降低的例如，图1中基于MMDetection[4]和Detectron2[42]的实验证明了这种现象。当我们利用检测工具箱MMDetection时，我们可以观察到AP S从19增加。5%至21。6%，而AP L从50. 4%至49。3%，整合FPN后。在Detectron 2中也可以观察到一致的趋势。在本研究之前，主要有两个假设，为什么引进FPN工作。第一，使用FPN有助于获得更好的表示通过融合多个低级和高级特征图[7，17，21，24，29]。第二个是每个金字塔级别可以负责检测特定尺度范围内的对象，即，，divide-and-conquer [5]. 显然，这两种假设都应该得出同样的结论，即AP的增加是由于AP S、AP M和AP L的共同增加。然而，图1中AP L的意外下降表明无FPN和基于FPN的检测框架之间存在其他关键差异，而很少有研究注意到这一点。在本文中，我们建议从优化的角度来研究FPN。我们的假设是，除了多尺度特征融合和分而治之外，FPN改变的反向传播路径也会直接影响检测框架的性能。我们从解释为什么FPN可以使检测框架受益开始通过改变反向传播路径。然后，我们指出，现有的FPN范式改变的反向传播路径将使每个骨干阶段只能看到一定尺度范围内的对象（即，提取仅适合于某些尺度范围对象的特征），这是图1中AP S、AP M和AP L的不一致变化的原因。因此，实现具有各种尺度范围的对象的AP的一致改进的关键见解是使每个骨干阶段能够在训练期间看到所有对象。基于这一原则，我们提出了扩展和修改现有的反向传播路径的FPN为基础的检测框架。+v：mala2255获取更多论文YSLAO 3我们扩展反向传播路径的方法是引入辅助目标函数，使得原始信号和额外信号可以共同监督相应骨干层的学习这种方法成功的关键技术是引入不确定性[15，16]以更好地平衡各种反向传播信号。修正反向传播路径的策略该方法的关键技术是用于保证齐次表示空间紧性的特征分组模块简而言之，本文的贡献是：– 据我们所知，这是第一个工作，以揭示FPN的成功的性质，从优化的角度。此外，我们提供了新的见解，解释为什么传统的FPN的引入会抑制大规模对象的性能从这个角度来看。– 我们建议引入由不确定性引导的辅助目标函数，以减轻APS、APM和APL的不一致变化。由于该策略在测试过程中没有额外的计算开销，可以保持检测器的推理速度不下降。– 我们提出了一种新的特征金字塔泛化范式。其核心思想是使各种尺度对象的反向传播信号能够直接传递到骨干网络的每一级。我们进一步设计了一个级联结构，以实现更强大的平均精度（AP）的改善。– 在COCO基准上的大量实验验证了我们的原则的合理性和解决方案的有效性没有铃声和whis- tles，我们的方法提高检测性能超过2%AP在各种框架上：一级、两级、基于锚的、无锚的和基于变压器的检测器。2相关作品目标检测。近年来，在目标检测方面取得了显着的进步[2，14，29，37，39]。一般来说，在这一领域有两个主要的范例，即。一阶段和两阶段框架。R-CNN [8]首先引入了两阶段管道，其中第一阶段产生一组区域建议，然后第二阶段对建议进行分类和细化。两阶段检测器的下一个里程碑是Faster R-CNN的出现[31]，它旨在提高两阶段方法的效率，并允许检测器进行端到端的培训。在此之后，大量的算法被提出来进一步提高其性能，包括应用多尺度训练和测试，研究[35，36]，重新设计和改革架构[2，3，9，41，50]，引入关系和注意机制[13，26，32]，改进培训策略和损失函数[12，20，28，30，33]，采用更合理的后处理算法[1，11，25，40]。与两阶段方法不同，一阶段检测器直接根据预定义的+v：mala2255获取更多论文CF4 Zhenchao Jin，et al.主播它们比两阶段方法更简单，更快，但已经落后检测性能直到RetinaNet的出现[22]。此后，提出了大量工作[5，6，19，39]来提高单阶段检测器的检测性能，并且目前，单阶段方法可以以更快的推理速度实现与两阶段框架特色金字塔。特征金字塔在现代探测器中占据主导地位已有好几年了。最近关于特征金字塔的研究可以大致分为三个集合：自上而下或自下而上的网络[21，24，29，34]，atten-基于方法[14，17，44，47]和基于神经架构搜索的方法[7，38]。具体来说，特征金字塔网络（FPN）[21]是构建特征金字塔的最经典范例之一，它设计了一个自顶向下的架构，具有横向连接，使每个金字塔级别承载高层语义信息。在此之后，一些工作[7，14，17，24，29，47]遵循FPN，并试图通过改进多尺度特征融合策略来获得更有效的表示。PANet[24]提出利用自下而上的架构来缩短浅层和顶层特征之间的信息交互路径。SAFNet[14]旨在通过引入注意机制来抑制所有金字塔尺度上的冗余信息NAS- FPN[7]提出通过神经结构搜索来构造特征金字塔然而，上述方法的出发点是FPN可以带来两个好处，即：利用多尺度特征融合获得更有效的表示[7，17，21，24，29]，采用分治法降低学习难度[5]。它也无法解释为什么引入FPN会抑制大规模对象的性能受此启发，我们建议从优化的角度重新审视FPN，这成功地解释了图1中的异常现象。从这个新的起点，我们进一步提出，通过扩展或修改基于FPN的检测框架中的反向传播路径来减轻APS、APM和APL这是我们的方法和以前的作品之间的主要区别。3重新访问FPN3.1骨干网在目标检测中，骨干网络B用于从输入图像I提取基本特征。为了便于演示，我们假设采用的骨干网络是ResNet [10]。它通常由一个基本特征提取器和大量的残差块组成，其中残差块可以根据输出特征图的分辨率分为四个阶段具体地，C计算如下，C1=fs0（I），Ci=fsi−1（Ci−1），2≤i≤5，（一）其中C由{C2，C3，C4，C5}组成，FB由{fs0，fs1，fs2，fs3，fs4}组成。+v：mala2255获取更多论文××C≤≤ΣPYSLAO 53.2无FPN检测框架对于无FPN的检测器，网络通常利用C5来执行对象的分类和回归，如下所示，Ocls=fcls（fpre（C5）），Oreg=freg（fpre（C5）），（二更）其中引入fpre以统一C5与输出结果之间的各种运算，例如区域提案网[31]。Ocls和Oreg分别是对象的预测类别信息和位置信息。fcls和freg分别是1 1卷积层。在训练期间，分类和回归损失计算如下，L=Lcls（Ocls，GTcls）+λLreg（Oreg，GTreg），（3）其中所采用的目标函数Lcls和Lreg取决于所利用的检测框架。GTcls和GTreg分别是地面实况分类和回归信息。λ是用于平衡分类和回归损失的超参数。3.3基于FPN的检测框架对于基于FPN的检测器，C首先用于构建特征金字塔，如下所示，C5′=flat5（C5），C4′=flat4（C4）+UP2×（C5′），C3′=flat3（C3）+UP2×（C4′），C2′=flat2（C2）+UP2×（C3′），Pl=fsmol（Cl′），2≤l≤5，（四）其中P={P2，P3，P4，P5}是构造的特征金字塔。UP2×表示比例因子为2的上采样。flati，2 ≤i≤ 5分别是由1 × 1卷积层实现的横向连接，用于改变的通道数。fsmol，2l5是线性函数，并且通常由3 × 3卷积层实现。在不失去一般性的情况下，Eq。(4) 可以重写如下，5Pl=wi·Ci，2≤l≤5，（5）I=L其中wi是多项式展开后相应级别的最终权重[17]。然后，网络用于预测分配给每个金字塔级别l的对象的分类和回归信息，如下所示，Ocls，l=f cls，l（f pre，l（P l）），O reg，l = f reg，l（fpre，l（P l））。（六）+v：mala2255获取更多论文--543254326 Zhenchao Jin，et al.L(a) 无FPN检测框架L2L3L4L5(b) 基于FPN的检测框架图二、比较无FPN检测框架和基于FPN检测框架之间的反向传播路径。蓝色箭头表示正向传播，橙色箭头表示反向传播。请注意，只有最重要的反向传播信号到每个骨干层将被标记.对象分配规则是使低分辨率金字塔特征（例如，，P5）负责预测大尺度对象，而高分辨率金字塔特征（例如，，P2）用于小尺度目标的预测在网络优化期间，每个金字塔级别l处的损耗计算如下：L 1 = L cls（O cls，l，GT cls，l）+ λL reg（O reg，l，GT reg，l）.（七）3.4FPN分析从第3.2节和第3.3节中，我们可以观察到，引入FPN可以改变目标函数和骨干网络之间的反向传播路径。图2显示了无FPN和基于FPN的检测框架之间的详细差异。在无FPN检测流水线中，仅骨干特征C5直接在目标函数的监督下。由于深度神经网络中存在梯度消失问题，因此浅层（即，，fs0，fs1，fs2，fs3）将难以通过反向传播接收有效的监控。而在基于FPN的检测框架中，我们可以观察到所有的骨干特征都直接在目标函数的监督下。由于该策略避免了浅层的梯度消失问题，因此骨干网络的每一级都可以接受更多的监督来训练自己的参数。我们认为这是基于FPN的检测器从优化角度优于无FPN检测器的关键原因。为了进一步证明上述原理，我们进行了实证研究，并在图3中显示了实验结果。FPN-Aux和DC 5-Aux表示5432+v：mala2255获取更多论文YSLAO 7图三. 不同设置下的检测性能。采用的骨干网络是ResNet-101，使用的检测器是Faster R-CNN。模型在COCO 2017训练集上训练，并在COCO 2017验证集上进行评估[23]。用于在骨干网的浅层中引入辅助损耗[40，48]。具体来说，给定C，我们首先有Ocls，i=fcls，i（fpre，i（Ci）），2≤i≤4，Oreg，i = f re g，i（f）e，i（八）（Ci）），2 ≤i≤ 4。对于两级检测器[31]，为了避免建议的双重计算，我们将利用等式中计算的建议。(2) 或等式(6)提取ROI然后，辅助损耗可以如下获得，Li=Lcls（Ocls，i，GTcls）+λLre g（Ore g，i，GTre g）.（九）检测框架的最终损失是辅助损失和原始损失之和。由于辅助损耗可以用来直接监督骨干网络的浅层学习，如果我们的假设是正确的，从优化的角度来看，引入辅助损耗应该具有类似于集成FPN的功能在图3中，可以观察到辅助损耗可以提高无FPN检测器的检测性能（从39.0%至39。6%），并获得与基于FPN的检测器（39. 6%v.s. 39岁。5%）。然而，辅助损耗的引入对于基于FPN的检测器似乎是无用的（从39。5%至39。5%）。这一结果验证了我们的假设，从优化的角度来看，FPN的成功的本质是缩短目标损耗和骨干网络的浅层之间的反向传播距离。现在，问题是为什么FPN的引入会抑制大规模物体的检测性能如图2所示，P2是{C2，C3，C4，C5}的线性组合，因此，L2可以直接监督学习+v：mala2255获取更多论文--≤≤≤ ≤≤ ≤8 Zhenchao Jin，et al.所有的主干阶段。基于相似的原理，L3、L4和L5分别具有直接约束{C3，C4，C5}、{C4，C5}和C5然而，如上所述，L2仅用于使相应的骨干层聚焦于小尺度范围内的对象。因此，学习的特征C2仅具有通过反向传播很好地检测小尺度对象的能力。同时，骨干网也需要利用Eq. (1) 计算{C3，C4，C5}，C2作为输入。显然，fs2不足以从C2中提取较大对象的丰富语义特征。更糟糕的是，当利用fs3和fs4计算C4和C5时，不利影响将进一步累积。因此，C5所携带的语义信息在预测大规模目标时有些失效。这也是为什么引入FPN后总有一个意想不到的现象，即整体检测性能的提高是建立在APS的增加和APL的降低之上的。图3中的实证研究也验证了我们的假设。详细地，我们可以观察到，在将辅助损耗应用于基于FPN的检测框架之后，APS、 APM、 APL之间的性能改进倾向于与具有辅助损耗的无FPN检测器一致。结果表明，由于辅助损失可以帮助骨干网络的浅层学习检测不同尺度目标的特征，因此C5不再因仅将FPN集成到检测框架中而无法有效预测大尺度目标。也就是说，C5中缺乏大规模物体的有效语义信息是导致APL降低的关键原因这个问题源于fsi，1 i 3在训练过程中无法看到各种尺度的物体。4方法由于发现{AP S，AP M，AP L}的不一致变化是由于fsi，1 i 3在训练期间无法看到所有对象而引起的，我们提出通过扩展或修改基于FPN的检测框架中的反向传播路径来使骨干阶段查看不同尺度的对象，以解决上述AP L下降的问题。具体而言，我们提出了两个策略，即。引入辅助目标函数，以更合理的方式构建特征金字塔。4.1辅助损耗如3.4节所述，引入辅助损耗可以帮助fsi，1 i 3拥有看到所有对象的能力。然而，损失的简单总和可能是不够的。为了更合理地引入辅助损耗，我们建议利用不确定性[15，16，43]来更好地平衡各种类型的损耗信号。具体来说，我们将不确定性纳入每个分类和回归辅助损失如下，L（p，gt）=e−αL<$（p，gt）+τα，（10）+v：mala2255获取更多论文--≤ ≤C{}×≤≤⊕YSLAO 9其中p是预测结果，gt是相应的基本事实。 L表示损失函数，例如、Lreg和Lcls.τ是用于避免产生高不确定性α的超参数。α如下生成，α=ReLU（w·x+b），（11）其中x是也用于预测p的特征图。w和b是可学习的参数。ReLU用于承诺α≥0。4.2特征金字塔生成范式以更合理的方式构建特征金字塔也是实现APS、 APM、 APL一致性改进的有效方法。正如第3.4节所分析的，构造传统FPN过程中的问题是由方程引起的。（四）、具体地，P1应该包含来自所有骨干层的特征图，使得L1可以帮助每个骨干层看到输入到L1的对象。因此，L1，215的总和可以使每个骨干层拥有查看所有对象的能力。Feture. 为了为分配给相应金字塔级别的对象从“=C2”、“C3”、“C4”、“C5”中选择有效的特征图，我们首先如下对C“Xk=Rzhw（Mk<$Rzn（Ck′）），2≤k≤5，（12）其中，n表示矩阵乘法。RznreshapesCk′ n到的大小Z× HW和Rzhw将输入张量整形为Z × H × W的大小，其中Z是通道的数量，H × W是特征图的分辨率。Mk是用于实现信道交换的大小为Z Z在实践中，Mk如下生成，Mk=Gk（Ck′），（13）其中G k的结构如图4所示。我们期望Mk具有使齐次特征映射沿通道维变得紧凑的能力。然后，沿通道维度将XkXk={Xk，2，Xk，3，Xk，4，Xk，5}，（14）其中我们假设Xk，l，2，l， 5只携带分配给金字塔级别l的对象的有效语义信息。之后，我们有Pl′=X2，l<$X3，l<$X4，l<$X5，l，2≤l≤5，（15）哪里表示连接操作。最后，特征金字塔的构造如下，Pl= fsmol（Pl′），2 ≤l ≤ 5.（十六）+v：mala2255获取更多论文L∼∼L×L��1×1L��1×110 Zhenchao Jin，等.′变形为×��图四、G k的结构的一个图解。Conv1×1表示1× 1卷积层。GN表示组归一化，GAP表示全局平均池化操作。级联结构。为了更好地促进空间紧凑性，我们建议采用级联结构进行特征分组，在一个由粗到细的方式。具体地，在第二阶段，首先将Pl’作为特征组ingm的输入，并且由此可以获得Pl’。然后，我们有一个Pl′′=fw（Pl′）·Pl′+fw（Pl′）·Pl′，2≤l≤5，（17）其中fw是用于生成特征融合权重的非线性函数。在我们的实现中，fw由两个卷积块组成（一个块由卷积、归一化和激活层组成）。最后，Q。(16) 将被执行以获得具有输入Pl "的特征金字塔。对于级数大于2的情况也可以这样做。5实验数据集。我们的方法在具有挑战性的MS COCO基准上进行了评估[23]，其中包含用于训练的118 k图像（train-2017 ），用于验证的5 k图像（val-2017）和用于测试的20 k图像（未公开注释）（test-dev）。默认情况下，本节中的检测框架在train-2017set上进行训练，并在val-2017set上进行评估。实施细节。我们的方法是用MMDetection实现的[4]。我们在8个NVIDIATesla V100 GPU上训练我们的检测框架，每张卡具有32 GB内存。根据之前的工作[21，22，31]，我们使用ImageNet[18]上预先训练的权重初始化骨干网络，并随机初始化新添加模块的权重调整输入图像的大小，以保持其短边为800，长边小于或等于1，333。优化器是随机梯度下降（SGD），动量为0.9，权重衰减为0.0001，批量大小为16（即每个GPU 2个图像）。默认情况下，模型被训练了12个epoch（1个schedule），我们将初始学习率设置为0.02，并在epoch 9和11分别衰减0.1。我们采用随机+v：mala2255获取更多论文YSLAO 11表1.辅助损失的烧蚀研究。FPS在单个Titan Xp上进行评估框架骨干辅助不确定AP AP50 AP75 APS APM APL FPS一期RetinaNetResNet-10138.5 57.6 41.021.7 42.8 50.415.0RetinaNetResNet-101✓38.7 57.7 41.221.2 43.0 51.215.0RetinaNetResNet-101✓✓40.1 61.4 43.723.3 44.4 52.415.0两级Faster R-CNN ResNet-10139.5 60.4 42.923.6 43.7 51.615.6Faster R-CNN ResNet-101✓39.5 60.0 43.321.8 43.5 52.215.6Faster R-CNN ResNet-101✓✓40.9 62.0 44.824.2 45.3 53.315.6表2.特征金字塔生成范式的消融研究。框架骨干特色介绍瀑布时代AP AP50 AP75 APS APM APL FPS一期RetinaNetResNet-10138.5 57.641.0 21.7 42.8 50.4 15.0RetinaNetRetinaNetResNet-101ResNet-101ResNet-101✓✓✓1×2×3×40.240.841.260.160.560.842.643.643.823.324.024.144.544.845.252.754.455.212.211.711.1两级Faster R-CNN ResNet-10139.5 60.442.9 23.6 43.7 51.6 15.6更快的R-CNNFaster R-CNNResNet-101ResNet-101ResNet-101✓✓✓1×2×3×40.641.742.261.962.763.044.545.445.824.224.825.545.045.946.152.753.755.812.011.410.9水平翻转作为数据扩充。其他未提及的超参数遵循MMDetection中的设置。在推理阶段，首先以与训练阶段相同的方式调整输入图像的大小，然后通过整个网络将其转发，以输出具有类别概率分布的预测边界框。之后，我们利用分数0.05来初步过滤背景边界框，然后输出每个金字塔级别的前1,000个检测。最后，应用非最大抑制（NMS），每个类别的IoU阈值为0.5，以输出每个图像的最终前100个置信检测。评价使用标准COCO风格的度量标准评估结果，包括AP（IoU阈值的平均值）、AP 50（IoU阈值50%的AP）、AP 75（IoU阈值75%的AP）、APS（小尺度对象上的AP）、AP M（中等尺度对象上的AP）和AP L（大尺度对象上的AP）。5.1消融研究辅助损失。由于辅助损耗可以在目标函数和骨干层之间建立额外的反向传播路径，因此我们建议引入辅助损耗来解决掉话AP L问题。表1示出了烧蚀实验。在引入辅助损耗之后，观察到AP L从50增加。4%至51。2%，从51。6%至52。2%，在一级和两级检测器，分别。这些改进表明，辅助损失可以使fsi，1≤i≤ 3拥有看到所有对象的能力，从而使C5能够携带更有效的大规模对象的语义信息此外，我们可以观察到，如果简单地加上辅助损耗，APS会+v：mala2255获取更多论文----12 Zhenchao Jin，et al.输入2345输出量：1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000输入2345输出量：1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000图五. 学习特征的可视化。采用的模型是带有ResNet-101的Faster R-CNN。图片选自MS COCOval-2017。和原始损耗成线性关系。这种下降表明，在一定程度上，辅助信号会覆盖原始损失信号，特别是对于有效信息最少的小目标。为此，我们将不确定性引入到辅助损耗中，以自适应地缩放辅助信号。据观察，APS从21. 2%至23。3%，从21。8%至24。一级和二级管道分别为2%结果表明，随着APS、 APM、 APL的一致变化，整体检测性能提高。这些改进很好地证明了我们推测的正确性和我们的方法的有效性。此外，由于辅助预测不参与模型推断阶段，因此检测器的FPS在引入辅助损耗之后不会下降。功能模块从优化的角度，找出了传统FPN构建过程中存在的不合理操作。具体来说，自顶向下的架构会使骨干网的浅层看不到大规模的对象。为了减轻所造成的不利影响，我们建议利用一个特征分组模块来构建每个特征金字塔，从所有的骨干阶段选择的特征图的中间层表2展示了实证研究。我们可以观察到，具有特征分组的FPN比传统FPN性能高1。7%和1。在一阶段和两阶段检测框架中，分别为1%。AP随APS、 APM、 APL的持续升高而升高。结果表明，特征分组模块通过修改目标函数与骨干网络之间的反向传播路径，使每个骨干层都能看到所有对象。级联结构。为了通过增强同质特征映射的空间紧凑性来实现更鲁棒的改进，我们建议引入级联特征分组结构。表2中的实验结果证明了这种结构的有效性据观察，检测每-+v：mala2255获取更多论文PCCPYSLAO 13表3. 将级联特征分组模块集成到各种检测框架中后对AP的改进。 1 ×、3×训练时间表遵循MMDetection [4]中解释的设置。FPN-CFG表示将级联特征分组模块应用到FPN中。方法骨干附表APAP50 AP75 APS APM APL一期[22]第二十二话[22]第二十二话免费锚[46]免费锚[46]ATSS[45]ATSS[45]ResNet-101-FPNResNet-101-FPN-CFG ResNet-101-FPNResNet-101-FPN-CFG1×1×1×1×1×1×38.541.2（+2.7）40.343.2（+2.9）41.543.8（+2.3）57.660.859.062.059.962.141.043.843.146.345.247.321.724.121.824.424.226.842.845.244.047.445.948.050.455.254.257.653.357.2两级更快的R-CNN[31]更快的R-CNN[31]Mask R-CNN[9]Mask R-CNN[9]Cascade R-CNN[2]Cascade R-CNN[2]Cascade Mask R-CNN [2]级联掩码R-CNN[2]ResNet-101-FPNResNet-101-FPN-CFG ResNet-101-FPNResNet-101-FPN-CFG ResNet-101-FPNResNet-101-FPN-CFG1×1×1×1×1×1×1×1×39.442.2（+2.8）40.043.3（+3.3）42.044.5（+2.5）42.945.4（+2.5）60.163.060.563.760.463.161.063.843.145.844.047.645.748.446.649.422.425.522.625.723.426.124.427.543.746.144.047.145.848.546.549.351.155.852.656.655.757.857.059.5无锚FCOS[39]FCOS[39]稀疏R-CNN[37]稀疏R-CNN[37]FSAF[49]FSAF[49]ResNet-50-FPNResNet-50-FPN-CFGResNet-50-FPNResNet-50-FPN-CFG ResNet-101-FPNResNet-101-FPN-CFG1×1×1×1×1×1×36.639.6（+3.0）37.940.1（+2.2）39.342.2（+2.9）56.058.856.058.758.662.038.842.340.542.642.144.821.022.920.722.222.124.340.643.440.042.643.445.947.051.953.555.651.256.2Transformer[27]第二十七话[27]第二十七话Swin-T-FPNSwin-T-FPN-CFG1×1×42.746.0（+3.3）65.267.046.850.526.528.845.949.756.659.1强基线级联掩码R-CNN[2]级联掩码R-CNN[2]ResNeXt-101-64x4d-FPNResNeXt-101-64x4d-FPN-CFG3×3×46.650.1（+3.5）65.1六十八点六50.6五十四点五29.3三十二点七50.5五十三点七60.1六十四点三随着级联次数的增加，在单级和两级框架中，级联时间都在稳步提高。此外，AP的改进总是受益于{APS， APM， APL}的一致改进。学习特征的可视化。在图5中，我们可视化了骨干层输出的特征图（即，，）和金字塔等级（即，）。实验结果表明，特征分组模块包含了整幅图像的语义信息，而只携带了用于检测相应尺度范围内对象的有效语义，说明特征分组模块能够很好地保证了齐次特征映射的空间紧性。5.2各种检测框架的性能。为了进一步证明我们的原则的合理性和我们的方法的鲁棒性，我们将级联特征分组（CFG）结构集成到各种检测框架中。表3展示了实验结果。对于单阶段检测器，我们的方法始终将基线框架提高至少2。3% AP。对于具有预定义锚点和ResNet主干的两阶段检测器，基线框架增加了2个以上。5% AP。最近学术界的注意力已经转向无锚检测器和基于变压器的骨干网络。我们还试图-+v：mala2255获取更多论文×--SML塞格塞格塞格14 Zhenchao Jin，et al.表4. 实例分割任务的实验结果。模型经过训练在MS COCOtrain-2017上进行了拆分，并在MS COCOval-2017套件上进行了评估。方法骨干附表AP分段AP分段AP分段AP分段AP分段AP分段50 75S M LMask R-CNNMask R-CNNSwin-T-FPNSwin-T-FPN-CFG1×1×39.30 62.2042.2020.5041.80 57.8041.40（+2.1）64.5044.6021.9044.6058.80Mask R-CNNMask R-CNNResNet-101-FPNResNet-101-FPN-CFG1×1×36.10 57.5038.6018.8039.70 49.5038.70（+2.6）60.8041.5019.0042.0056.00级联掩码R-CNN级联掩码R-CNNResNet-101-FPNResNet-101-FPN-CFG1×1×37.30 58.2040.1019.7040.60 51.5039.40（+2.1）61.3042.6019.7042.60 57.10将拟议的结构纳入这些框架。据观察，级联特征分组结构带来超过2。与无锚检测器和基于变压器的检测器相比，AP提高了2%。此外，我们还通过多尺度训练，3时间表和ResNeXt-101- 64 x4 d骨干训练了一个强大的基线。将级联特征分组模块集成到传统的FPN中后，强基线仍然提高了3。5% AP。值得一提的是，性能增益都是通过在不同尺度范围内一致地提升对象的AP来实现的以上结果表明了骨干网络的每一级都应该拥有查看所有对象的能力的必要性和有效性5.3实例分割为了验证我们的方法的泛化能力，我们还将级联特征分组模块应用于更具挑战性的实例分割任务，该任务需要同时预测对象实例及其每个像素的分割掩码。如表4所示，我们的方法将不同检测器的AP seg从39. 30%到4140%，36。10%到38。70%，37。30%到39。40%，分别。此外，所有的改进都建立在{AP， AP， AP}的一致增加上。6结论这项工作首先确定的FPN的成功的性质，从优化的角度。基于这一原理，我们成功地说明了为什么FPN的引入会抑制大目标的检测性能。我们进一步得出结论，解决APS， APM， APL中不一致变化问题的关键是使每个骨干层都能看到所有对象。因此，我们提出了两个策略来实现这一目标。一种是引入辅助损耗，使包含所有对象信息的辅助信号能够直接通过骨干网的浅层。另一种方法是将级联特征分组结构集成到现有的FPN中，从而修正目标函数与骨干网络浅层之间的反向传播路径。大量的实验表明了我们的原则的合理性和我们的策略的有效性。没有花里胡哨的东西，我们的方法为12个不同的检测框架带来了一致的性能改进。+v：mala2255获取更多论文YSLAO 15引用1. Bodla，N.，辛格湾，切拉帕河戴维斯，L.S.：用一行代码改进对象检测。在：IEEE计算机视觉国际会议论文集。pp. 55612. 蔡志，Vasconcelos，N.：Cascade r-cnn：高质量的对象检测和实例分割。 IEEE Transactions on Pattern Analysis and Machine Intelligence（2019）3. 陈凯，Pang，J.，王杰，熊，Y.，Li，X.，Sun，S.，Feng，W.，刘志，施，J.，Ouyang，W.，等：实例分割的混合任务级联。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 49744. 陈凯，王杰，Pang，J.，曹玉，熊，Y.，Li，X.，Sun，S.，Feng，W.，刘志，徐，J，等：Mmdetection：打开mmlab检测工具箱和基准测试。arXiv预印本arXiv：1906.07155（2019）5. 陈昆，王玉，杨，T.，张，X.，Cheng，J.，Sun，J.：你看上去只有一个层次。IEEE/CVF计算机视觉和模式识别会议论文集。pp. 130396. Ge，Z.，Liu，S.，王福，Li，Z.，Sun，J.：Yolox：在2021年超越yolo系列。arXiv预印本arXiv：2107.08430（2021）7. Ghiasi，G.，Lin，T.Y.，Le，Q.V.：Nas-fpn：学习用于对象检测的可扩展特征金字塔体系结构。IEEE/CVF计算机视觉和模式识别会议论文集。pp.70368. 吉希克河，Donahue，J.，Darrell，T.，Malik，J.：丰富的功能层次结构，准确的对象检测和语义分割.在：IEEE计算机视觉和模式识别会议论文集。pp.第5809. H e，K.， Gki oxari，G.，多尔拉尔山口， Girshi ck，R.：面具R-CNN。In：IEEE计算机视觉国际会议主席。pp. 296110. 他，K.，张，X.，Ren，S.，Sun，J.：深度残差学习用于图像识别。在：IEEE计算机视觉和模式识别会议论文集。pp. 77011. 他，Y.，张，X.，Savvides，M.，Kitani，K.：Softer-nms：重新思考边界框回归用于精确的对象检测。 arXiv 预印本arXiv ： 1809.085452 （ 3）（2018）12. 他，Y.，Zhu，C.，中

下载后可阅读完整内容，剩余1页未读，立即下载