基于尺度感知的Trident网络的目标检测

197 浏览量更新于2023-10-12 收藏 986KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于尺度感知的Trident网络的目标检测李阳浩*陈云涛1，3 * 王乃艳2张兆祥1，3，41中国科学院大学2TuSimple3中国科学院智能感知与计算研究中心4中国科学院脑科学与智能技术卓越中心{lyttonhao，winsty}@ gmail.com{chenyuntao2016，zhaoxiang.zhang}@ia.ac.cn摘要尺度变化是目标检测的关键挑战之一在这项工作中，我们首先提出了一个受控的实验，研究感受野的影响，规模变化的目标检测。基于探索实验的结果，我们提出了一种新的三叉神经网络（TridentNet），旨在生成具有统一表示能力的特定尺度我们构造了一个并行的多分支结构，其中每个分支共享相同的转换参数，但具有不同的感受野。然后，我们采用了一个规模意识的训练计划，专门每个分支的采样对象的情况下，适当的规模进行培训。作为奖励，与vanilla检测器相比，TridentNet的快速近似版本可以在没有任何额外参数和计算成本的情况下实现在COCO数据集上，我们使用ResNet-101主干的TridentNet实现了48.4 mAP的最先进的单模型结果。代码可在https://git.io/fj5vR获取。1. 介绍近年来，深度卷积神经网络（CNN）[16，35，29]在对象检测方面取得了巨大成功。通常，这些基于CNN的方法可以大致分为两种类型：单阶段方法，如YOLO [32]或SSD [29]，直接利用前馈CNN来预测感兴趣的边界框，而两阶段方法，如Faster R-CNN [35]或R-FCN [10]首先生成建议，然后利用从CNN提取的区域特征进行进一步细化。然而，这两种方法的中心问题是尺度变化的处理对象实例的尺度可以在很大范围内变化，这阻碍了检测器，特别是那些非常小或非常大的。* 平等贡献为了弥补大尺度变化，一种直观的方法是利用多尺度图像金字塔[1]，这在手工制作的基于特征的方法[12，30]和当前基于深度CNN的方法中都很流行（图1（a））。强证据[21，28]表明，深度探测器[35，10]可以从多尺度训练和测试中受益。为了避免训练具有极端尺度的对象（较小/较大尺度中的小/大对象），SNIP [38，39]提出了一种尺度归一化方法，该方法选择性地训练每个图像尺度中适当大小的对象。然而，由于推理时间的增加，使得图像金字塔方法在实际应用中变得不那么有利.另一种努力旨在采用网络内特征金字塔来近似图像金字塔，具有更少的计算成本。这个想法首先在[13]中得到了证明，其中通过从附近的尺度级别插入一些特征通道来构建快速特征金字塔以用于对象检测。在深度学习时代，近似甚至更容易。SSD [29]利用来自不同层的多尺度特征图，并在每个特征层检测不同尺度的对象。为了弥补低级特征中语义的缺失，FPN [25]（图1（b））进一步增加了自上而下的路径和横向连接，以在高级特征中包含强语义信息。然而，具有不同尺度的对象的区域特征是从不同级别的FPN骨干中提取的这使得特征金字塔成为图像金字塔的一个不令人满意的替代品。图像金字塔和特征金字塔方法都有相同的动机，即模型应该对不同尺度的对象具有不同的感受野尽管效率低下，图像金字塔充分利用了模型的代表性力量，平等地转换所有尺度的对象。相比之下，特征金字塔生成多级特征，从而牺牲了不同尺度上的特征一致性。这导致有效训练数据的减少和每个尺度的过拟合风险更高。这项工作的目标是获得最好的两个世界60546055(a) 图像金字塔（b）特征金字塔（c）三叉戟网络图1：（a）使用多个尺度的多个图像作为输入，图像金字塔方法对每个尺度独立地执行特征提取和对象检测。(b)特征金字塔方法针对不同尺度利用来自CNN的不同层的特征，这是计算友好的。此图以FPN [25]为例。(c)我们提出的三叉戟网络生成尺度感知的特征图有效地通过三叉戟块与不同的感受野。有效地为所有尺度创建具有统一表示能力的特征在本文中，我们提出了一种新的网络结构来适应不同尺度的网络，而不是像图像金字塔那样的多尺度输入。特别地，我们使用如图1（c）中所示的所提出的三叉戟块来创建多个尺度特定的特征图。借助扩张卷积[41]，三叉块的不同分支具有相同的网络结构，共享相同的参数，但具有不同的感受野。此外，为了避免训练具有极端尺度的对象，我们利用尺度感知训练方案来使每个分支特定于与其感受野匹配的给定尺度范围。最后，由于整个多分支网络的权重共享，我们可以在推理过程中仅用一个主要分支来近似整个TridentNet。这种近似只会带来边际性能下降。因此，它可以实现显着的改善，在单尺度基线的推理速度没有任何妥协。这个属性使得TridentNet在实际应用中比其他方法更可取总结起来，我们的贡献如下：我们提出我们的调查结果的感受野的规模变化的影响。据我们所知，我们是第一个设计控制实验来探索对象检测任务的感受野。我们提出了一种新的三叉神经网络来处理目标检测的尺度变化问题通过多分支结构和尺度感知训练，TridentNet可以生成具有统一表示能力的尺度特定特征图。我们提出了一个快速近似，TridentNet快速，只有一个主要的分支，通过我们的权重共享的三叉链块设计，从而在推理过程中不引入额外的参数和计算成本。• 我们验证了我们的方法的有效性标准COCO基准与全面消融研究。与最先进的方法相比，我们提出的方法使用具有ResNet-101主干实现了48.4的mAP。2. 相关工作深层物体探测器。最近，基于深度学习的对象检测方法在准确性和速度方面都有了显着的改进作为主要的检测器之一，两阶段检测方法[16，15，35，10，5，23]首先生成一组区域建议，然后通过CNN网络对其进行细化在[16]中，R-CNN通过选择性搜索[40]生成区域规划，然后通过标准CNN独立并顺序地对原始图像中的裁剪建议区域进行分类和细化。为了减少R-CNN中特征提取的冗余计算，SPPNet [18]和Fast R-CNN [15]一次提取整幅图像的特征，然后通过空间金字塔池化和RoIPooling层生成区域特征，重新排序。RoIPooling层由RoIAlign层[17]进一步改进，以解决粗空间量化问题。Faster R-CNN [35]首先提出了一个统一的端到端框架用于对象检测。提出了一种与探测网络共用同一骨干网络的区域建议网络（RPN），以取代原有的独立的耗时的区域建议方法。为了进一步提高Faster R-CNN的效率，R-FCN [10]通过完全卷积网络构建位置敏感的得分图，以避免RoI头部网络。为了避免R-FCN中额外的大分数映射，Light-Head R-CNN [23]使用薄特征映射和廉价的R-CNN子网来更有效地构建两阶段检测器另一方面，由YOLO [32，33，34]和SSD [29]流行的一阶段方法旨在通过直接对预定义的锚点进行分类并使用CNN进一步细化它们而无需建议生成步骤来提高效率基于SSD中的多层预测模块，DSSD [14]引入了额外的上下文信息。···6056−×−×用反卷积算子来提高精度。RetinaNet [26]提出了一种新的焦点损失，以解决极端的前景-背景类不平衡，这是一个阶段检测器的核心问题。继承了两阶段方法的优点，Refinedet [42]提出了一个锚点细化模块，首先过滤负锚点框，然后粗略调整锚点框以用于下一个检测模块。处理尺度变化的方法。作为目标检测中最具挑战性的问题，目标实例之间的大尺度变化影响了检测器的准确性。多尺度图像金字塔[21，28，11]是改进检测方法的常见方案，特别是对于小尺度和大尺度的对象。基于图像金字塔策略，SNIP [38]提出了一种尺度归一化方法，用于在多尺度训练期间训练落入每个分辨率所需尺度范围内的对象。为了更有效地执行多尺度训练，SNIPER [39]在训练期间仅选择地面实况实例周围的上下文区域然而，SNIP和SNIPER仍然遭受不可避免的推理时间增加。一些方法利用不同空间分辨率的多级特征来减轻尺度变化，而不是将多个图像作为输入。Hyper- Net [22]和ION [2]等方法将不同层的低级和高级特征连接起来，以生成更好的预测特征图。由于不同层次的特征通常具有不同的分辨率，在融合多层次特征之前需要设计特定的归一化或变换算子。相反，SSD [29]和MS-CNN [4]在没有特征融合的情况下在多个层执行不同尺度的对象检测TDM [37]和FPN [25]进一步引入了自上而下的路径和横向连接，以增强底层低级特征的语义表示。PANet [28]通过额外的自下而上路径增强来增强FPN中的特征层次结构，并提出自适应特征池来聚合来自所有级别的特征以实现更好的预测。我们提出的Tri- dentNet不是使用来自不同层的特征，而是通过多个并行分支生成特定于尺度的特征，从而赋予我们的网络对不同尺度的对象相同回旋扩张。扩张卷积[41]（又名Atrous卷积[20]）通过在稀疏采样位置执行卷积来扩大具有原始权重扩张卷积已被广泛用于语义分割，以纳入大规模的上下文信息[41，6，43，7]。在目标检测领域，DetNet [24]设计了一种特定的检测方法，骨网络以保持空间分辨率并使用扩张卷积来扩大感受野。可变形卷积[11]通过自适应地学习采样位置来进一步推广扩张卷积。在我们的工作中，我们采用扩张卷积在我们的多分支架构具有不同的扩张率，以适应不同尺度的对象的感受野。3. 感受野骨干网络的几个设计因素可能会影响目标检测器的性能，包括下采样率、网络深度和接收场。一些作品[4，24]已经讨论了它们的影响。前两个因素的影响是直接的：较深的网络和较低的下采样率可能会增加复杂度，但通常有利于检测任务。然而，据我们所知，没有以前的工作，研究孤立的感受野的影响。为了研究感受野对不同尺度物体检测的影响，我们将骨干网络中的一些卷积替换为它们的扩张变体[41]。我们使用不同的膨胀率来控制网络的感受野。具有扩张率ds的扩张卷积在连续滤波器值之间插入ds1个具体地说，一个扩张的3 - 3卷积可以有相同的感受野的卷积核大小为3 + 2（ds1）。假设当前特征图的总步长为s，则速率为ds的扩张卷积可以将网络的感受野增加2（ds−1）s。因此，如果我们用ds膨胀率修改n个卷积层，感受野可以增加2（ds-1）sn。我们使用更快的R进行我们的试点实验-CNN [35]检测器与COCO [27]数据集上的ResNet-C4主干。在COCO风格的mmAP中分别报告了所有对象和小、中、大尺寸对象的结果。我们使用ResNet-50和ResNet-101作为骨干网络，并在conv4阶段将3 3卷积的膨胀率ds表1总结了结果。我们可以发现，随着感受野的增加（更大的扩张率），探测器对小物体的性能在ResNet-50和ResNet-101上一致下降而对于大的物体，检测器受益于增加的感受野。上述研究结果表明：1. 网络的感受野对不同尺度对象的表现有影响。最适感受野与物体的尺度密切相关。6057××× ××图2：拟议的TridentNet图示。三叉块中的多个分支共享具有不同膨胀率的相同参数以生成尺度特定的特征图。在训练期间，针对每个分支对指定尺度的对象进行采样来自多个分支的最终建议或检测将使用非最大抑制（NMS）来组合。这里我们只展示了TridentNet的主干网络。RPN和Fast R-CNN头在分支之间共享，并且为了简单起见而被忽略。dentNet由权重共享三叉戟块和自由设计的尺度感知训练方案组成。最后，我们还介绍了TridentNet的推理细节，包括一个快速的推理近似方法。表1：使用Faster R-CNN [35]在COCOminival数据集[27]上评估的不同感受野的对象检测结果。2. 尽管ResNet-101具有足够大的理论感受野，可以覆盖大型物体（大于96 96分辨率），但在COCO中，扩大放大率仍能提高对大目标的显示效果。这一发现与文献[31]中的有效感受野小于非理论感受野的观点是一致的。我们假设检测网络的有效感受野需要在小物体和大物体之间保持平衡。增加扩张率通过强调大对象来扩大有效感受野，从而损害小对象的性能。上述实验促使我们调整不同尺度物体的感受野，详见下一节。4. 三叉戟网络在本节中，我们将介绍用于对象检测的尺度感知Trident建议的三-4.1. 网络结构我们的目标是继承不同的感受野大小的优点，并避免检测网络的缺点我们提出了一个新的Trident架构，如图2所示。特别地，我们的方法将单尺度图像作为输入，然后通过并行分支创建尺度特定的特征图，其中卷积共享相同的参数但具有不同的膨胀率。多分支块我们通过在检测器的骨干网络中用所提出的三叉块替换一些卷积块来构建三叉网络。一个三叉块由多个并行分支组成，其中每个分支与原始卷积块共享相同的结构，除了膨胀率。以ResNet为例，对于瓶颈样式[19]中的单个残差块，其由内核大小为11，33和11的三个卷积组成，相应的三叉块被构造为多个并行残差块，对于33个卷积具有不同的膨胀率，如图3所示。堆叠三叉戟块使我们能够以类似于第3节中的试点实验的有效方式控制不同分支的感受野。通常，我们用三叉戟块替换骨干网络最后阶段的块，因为更大的步幅会导致所需感受野的更大详细的设计选择可参见第5.2节。骨干扩张APAPsAPmAPl10.3320.1740.3840.464ResNet-5020.3420.1680.3860.48630.3410.1620.3830.49210.3790.2000.4300.528ResNet-10120.3800.1910.4270.53830.3710.1810.4100.53860581x11x11x13x3，d=13x3，d=23x3，d=31x11x11x1+++XN输入输出3Output2Output1权重共享图3：从瓶颈残差块构造的三叉戟块。分支之间的权重共享。我们的多分支三叉戟块的一个直接问题是，它引入了几次参数，这可能会导致过度拟合。幸运的是，不同的分支共享相同的结构（除了膨胀率），从而使权重共享变得简单。在这项工作中，我们共享所有分支及其相关RPN和R-CNN头的权重，并且仅改变每个分支的扩张率。重量分担的优点有三方面。它减少了参数的数量，使得TridentNet与原始检测器相比不需要额外的参数。这也与我们的动机相呼应，即不同尺度的对象应该经历具有相同表征能力的统一变换。最后一点是，可以在来自所有分支的更多对象样本上训练变换参数换句话说，在不同的感受野下，针对不同的尺度范围训练相同的参数。4.2. 规模意识培训计划提出的TridentNet架构根据预定义的膨胀率生成特定于尺度的特征图。然而，表1中由尺度失配（例如，分支上具有太大扩张的小对象）对于每个单个分支仍然存在因此，在不同分支上检测不同尺度的对象是自然的在这里，我们提出了一个规模意识的训练计划，以提高规模意识的每一个分支，并避免训练的极端规模上不匹配的分支。与SNIP[38]类似，我们为每个分支i定义一个有效范围[li，ui]。在训练过程中，我们只选择其尺度落在每个分支的相应有效范围内的propos- als和ground truth框。具体地，对于在图像上的具有宽度w和高度h的输入图像（在调整大小之前），在以下情况下对分支i有效：li≤lwh≤ ui.（一）这种尺度感知训练方案可以应用于RPN和R-CNN两者。对于RPN，我们根据等式2选择对每个分支有效的地面真值框。在锚点标签分配期间为1。同样，我们在R-CNN的训练过程中删除了每个分支的所有无效建议。4.3. 推理与近似在推理过程中，我们为所有分支生成检测结果，然后过滤掉每个分支有效范围之外的盒子。然后，我们使用NMS或软NMS [3]来组合多个分支的检测输出并获得最终结果。快速推理近似TridentNet的一个主要缺点是由于其分支性质导致推理速度慢。在这里，我们提出了TridentNetFast，这是一种快速近似的TridentNet，在推理过程中只有一个分支。对于图2中的三分支网络，我们使用中间分支进行推理，因为它的有效范围涵盖了大对象和小对象。通过这种方式，与标准的Faster R-CNN检测器相比，TridentNet Fast不会产生额外的时间成本。令人惊讶的是，我们发现这种近似与原始的TridentNet相比只表现出轻微的性能下降。这可能是由于我们的权重共享策略，通过该策略，多分支训练相当于网络内规模增强。TridentNet Fast的详细消融见第5.3节。5. 实验在本节中，我们在COCO数据集上进行实验[27]。在[2，25]之后，我们在80k个训练图像和35k个验证图像子集（trainval35k）的联合上训练模型，并在一组5k个验证图像（minival）上进行评估。我们还报告了一组20 k测试图像（test-dev）的最终结果。我们首先在5.1节中描述TridentNets和训练设置的实现细节。然后，我们进行了彻底的消融实验，以验证第5.2节中提出的方法。最后，第5.4节将TridentNets的结果与测试开发集上的最先进方法进行了比较。5.1. 实现细节我们重新实现了 Faster R-CNN [35] 作为我们在MXNet [8]中的基线方法。遵循其他标准检测器[16，35]，网络骨干在ImageNet上进行预训练[36]。冻结茎、第一残余阶段和所有BN参数。将输入图像的大小调整为短边800。训练时采用随机水平空翻默认情况下，模型的批量大小为6059××骨干方法多分支权重分担规模感知APAP50APsAPmAPl(a)基线---37.958.820.043.052.8(b)多分支C39.059.720.643.555.1ResNet-101(c)TridentNet w/o scale-awareCC40.361.121.844.756.7(d)TridentNet w/o共享CC39.360.421.443.854.2(e)TridentNetCCC40.661.823.045.555.9(a)基线---39.961.321.645.055.6(b)多分支C40.561.521.945.356.8ResNet-101-可变形(c)TridentNet w/o scale-awareCC41.462.823.445.957.4(d)TridentNet w/o共享CC40.361.622.945.055.0(e)TridentNetCCC41.862.923.646.857.1表2：COCOminival套件的结果从我们的基线开始，我们逐渐在我们的TridentNet中添加多分支设计，分支之间的权重共享和尺度感知训练方案，用于消融研究。16个GPU。默认情况下，模型在12个epoch中进行训练，学习率从0.02开始，在第8个和第10个epoch之后降低 0.1倍2或3个训练方案意味着相应地将总训练时期和学习率时间表增加一倍或两倍。我们采用ResNet [19]中conv4阶段的输出作为骨干特征图， conv5 阶段作为基线和TridentNet中的R-CNN头部。如果没有另外指定，我们采用三个分支作为默认的 TridentNet 结构。对于TridentNet中的每个分支，在NMS之前/之后保留前12000/500个propos-al，并且我们对128个ROI进行采样以进行训练。在三个分支中，扩张率分别设置为1、2和3。当采用尺度感知训练时-在TridentNet的框架下，我们将三个分支的有效范围分别设置为[0，90]，[30，160]和[90，∞]对于评估，我们报告标准COCO评估-平均精度（AP）[27]以及AP50/AP75的评估指标。我们还报告了COCO风格的APs，APm和APl的小（小于32×32 ），中等（从 32×32 到 96×96 ）和大（大于96×96）尺寸的对象。5.2. 消融研究TridentNet的组成部分。首先，我们分析了TridentNet中每个组件基线方法（表 2 （ a ））在 ResNet-101 和ResNet- 101-可变形[11]主链上进行评价。然后，我们逐步应用我们的多分支架构，权重共享设计和规模感知训练方案。1. 多分支机构。表2（b）根据初步实验，评估了一种直接获得多个感受野最佳效果的方法。这个多分支变体在ResNet-101（从37.9到39.0）和ResNet-101- Deformable（从39.9到40.5）的AP基线上进行了改进，特别是对于大型对象（增加2.3/1.2）。这表明，即使最简单的多分支设计可以受益于不同的感受野。2. 规模感知。表2（d）显示了基于多分支添加尺度感知训练的消融结果（表2（b））。它为小对象带来了额外的改进（在 ResNet-101/ResNet-101-Deformable上增加0.8/1.0），但对大对象的性能下降。我们推测，尺度感知的训练设计阻止了每个分支训练极端尺度的对象，但也可能带来有效样本减少导致的每个分支中的过拟合问题。3. 体重分担通过在多分支（表2（c））和TridentNet（表2（e））上应用权重共享，我们可以在两个基础网络上实现一致的改进这证明了重量分担的有效性。它减少了参数的数量，提高了检测器的性能。在权重共享的帮助下（表2（e）），所有分支共享相同的参数，这些参数在所有尺度的对象上被完全训练，从而减轻了尺度感知训练中的过拟合问题（表2（d））。最后，TridentNets在两个基础网络上实现了显著的改进（ 2.7/1.9 AP 增加）。它还表明，所提出的TridentNet结构与变形卷积[11]等方法兼容，可以自适应地调整感受野。分支机构的数量。我们研究了数字的选择 -TridentNets中的分支。表3显示了使用一到四个分支的结果。请注意，我们在这里没有添加规模感知的训练方案，以避免为不同数量的分支精心调整表3中的结果表明，TridentNets始终能够提高6060分支APAP50APsAPmAPl133.253.817.438.446.4235.956.719.040.651.2336.657.318.341.452.3436.557.318.841.451.9表3：在ResNet-50上使用不同数量分支的COCOminival阶段APAP50APsAPmAPl基线33.253.817.438.446.4conv234.154.817.139.148.6conv334.455.017.539.349.0conv436.657.318.341.452.3表4：在ResNet-50的不同阶段中，通过将conv块替换为trident块，COCOminival集的结果与单支方法（基线）相比，AP增加2.7至3.4可以注意到，四个分支并不比三个分支带来因此，考虑到复杂性和性能，我们选择三个分支作为默认设置。Trident块的阶段。我们在TridentNet上进行消融研究，以找到放置Trident块的最佳阶段在ResNet中。表4显示了分别在conv2、conv3和conv4相应的总步幅为4、8和 16 。与 conv4 阶段相比， conv2 和 conv3 阶段的TridentNets在基线上略有增加。这是因为conv2和conv3特征图中的步幅不足以扩大三个分支之间的感受野差异三叉戟块的数量。由于ResNet中的conv4阶段有多个残留块，我们还进行了消融研究，以探索Trident-Net需要多少个Trident块。在这里，我们在ResNet-101上的conv4图4中的结果表明，当trident块的数量超过10时，TridentNet的性能变得稳定。这表明，当分支之间的接收字段的差异足够大时，TridentNet相对于Trident块的数量具有鲁棒性。每个分支的业绩。在本节中，我们将研究多分支TridentNet的每个分支的性能。我们独立地评估每个分支的性能，而不将检测移出尺度感知范围。表5显示了每个分支和三个分支组合的结果不出所料，通过图 4 ：在 ResNet-101 上使用不同数量的 trident 块的COCOminival方法分公司第APAP50APs APm APl基线-37.958.820.043.052.8分支-131.553.922.043.329.9TridentNet分支-2分支-337.858.418.045.353.431.948.87.137.956.13个分支40.661.823.045.555.9表5：在COCOminival集上评价的TridentNet中每个分支的结果。三叉神经网络中三个分支的膨胀率分别为1、2和3。结果基于ResNet-101。规模感知范围APAP50APsAPmAPl(a)基线37.958.820.043.052.8(b)[0，90]，[30，160]，[90，∞]37.858.418.045.353.4(c)[0，90]，[0，∞]，[90，∞]39.360.119.144.656.4(d)[0，∞]，[0，∞]，[0，∞]40.061.120.944.356.6表6：在COCO迷你集上评估的不同尺度感知范围方案下的TridentNet Fast 结果。所有结果都基于ResNet-101，并共享相同的超参数。尺度感知训练，具有最小感受野的分支1在小对象上取得良好的结果，分支2在中等尺度的对象上工作良好，而具有最大感受野的分支3最后，三分支方法继承了三个单分支的优点，取得了最好的效果。5.3. 快速推理近似为了减少 TridentNet 的推理时间，我们提出了TridentNet Fast，它在推理过程中使用单个主要分支来如表5所示，分支2作为主要分支的自然候选者出现，因为其尺度感知范围覆盖大多数对象。我们在表6中调查了尺度感知范围对尺度感知培训的影响。如表6（c）所示，通过将主要分支的规模感知范围扩大到所有规模的公司内对象，6061××方法骨干APAP50AP75APsAPmAPlCascade R-CNN [5]ResNet-101-FPN42.862.146.323.745.555.2DCNv2 [44]ResNet-101-可变形V246.067.950.827.849.159.5DCR [9]ResNet-101-FPN-可变形43.166.147.325.845.955.3SNIP [38]ResNet-101-可变形44.466.244.927.347.456.9[39]第三十九话ResNet-101-可变形46.167.051.629.648.958.1TridentNetResNet-10142.763.646.523.946.656.6TridentNet*ResNet-101-可变形46.867.651.528.051.260.5TridentNet* +图像金字塔ResNet-101-可变形48.469.753.531.851.360.3表7：在COCO测试开发集上评价的不同对象检测方法的单模型结果比较“快速”比默认的缩放感知范围设置提高了1.5 AP此外，扩展所有三个分支的规模感知范围可实现40.0 AP的最佳性能，接近原始TridentNet的40.6 AP结果。我们推测这可能是由于体重分担策略。由于主要分支的权重在其他分支上共享，因此在尺度不可知方案中训练所有分支相当于执行网络内多尺度增强。5.4. 与艺术在本节中，我们在 COCO 测试开发集上评估TridentNet，并与其他最先进的方法进行比较。在这里，我们在表7中报告了我们的方法在不同设置下的结果。TridentNet将我们的方法直接应用于具有ResNet-101骨干的Faster R-CNN，在2个训练方案中实现了42.7AP，而没有花里胡哨。为了与SNIP和SNIPER进行公平的比较，我们在TridentNet上应用了多尺度训练，软NMS，可变形卷积，大批量 BN 和 3 种训练方案，并得到了TridentNet*。它给出了46.8的AP，在单尺度测试设置中已经超过了基于图像金字塔的SNIP和SNIPER。如果我们采用图像金字塔进行测试，它进一步改善了TridentNet* 的结果，48.4 AP.据我们所知，对于具有ResNet-101主干的单个模型，我们的结果是最先进方法中的最佳入口。此外，TridentNet* Fast + Image Pyramid达到47.6 AP。与其他秤处理方法比较。在本节中，我们将TridentNet与其他流行的尺度处理方法（如FPN [25]和ASPP [7]）进行比较。 FPN是处理检测中尺度变化的事实模型ASPP是TridentNet的一种特殊情况，只有一个三叉戟块，三个分支的膨胀率设置为（6，12，18），后面是一个特征融合算子。为了与FPN进行公平比较，我们在本节中采用2fc头而不是conv5头。表8在相同的培训环境下比较了这些方法。TridentNet改善了信号-方法APAP50AP75APsAPm APl2fc基线39.861.743.022.044.754.4[25]第二十五话39.861.343.322.943.352.6ASPP39.760.442.721.744.553.9TridentNet42.063.545.524.947.056.9表8：COCOminival set检测结果的比较。在FPN†之后，所有方法都基于ResNet-101，使用2fc头，使用2×训练计划。在所有尺度上都明显优于其他方法。它显示了TridentNet使用相同的参数集生成的尺度特定特征图的有效性。此外，TridentNet Fast实现了41.0 AP，比基线提高了1.2 AP，并且没有计算成本。6. 结论在本文中，我们提出了一个简单的目标检测方法，称为三叉神经网络，建立在网络规模特定的特征映射与统一的代表性权力。我们的多分支结构采用了一种尺度感知的训练方案，使每个分支都具有相应尺度的特定能力。主要分支的快速推理方法使TridentNet在没有任何额外参数和计算的情况下实现了对基线方法的显着改进。承认本工作得到了国家重点研发计划（ No.2018YFB1402605 ）、北京市自然科学基金（ No.Z181100008918010 ）、国家自然科学基金（ No.61836014 、 No.61761146004 、 No.61773375 、No.61602481）的部分资助。作者要感谢NVAIL的支持。†Detectron ： https://github.com/facebookresearch/Detectron/blob/master/MODEL_ZOO.md6062引用[1] Edward H Adelson ， Charles H Anderson ， James RBergen，Peter J Burt，and Joan M Ogden.图像处理中的金字塔方法RCA工程师，29（6）：33-41，1984。1[2] Sean Bell，C Lawrence Zitnick，Kavita Bala，and RossGir- shick.内外网：用跳跃池和递归神经网络检测上下文中的对象。在CVPR，2016年。三、五[3] Navaneeth Bodla，Bharat Singh，Rama Chellappa，andLarry S Davis. Soft-NMS-用一行代码改进对象检测。InICCV，2017. 5[4] Zhaowei Cai，Quanfu Fan，Rogerio S Feris，and NunoVas-concelos.用于快速目标检测的统一多尺度深度卷积神经网络。在ECCV，2016年。3[5] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade R-CNN：深入研究高质量的对象检测。在CVPR，2018年。二、八[6] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834-848，2018。3[7] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。arXiv：1706.05587，2017。三、八[8] Tianqi Chen ， Mu Li ， Yutian Li ， Min Lin ， NaiyanWang，Minjie Wang，Tianjun Xiao，Bing Xu，ChiyuanZhang，and Zheng Zhang. MXNet：一个面向异构分布式系统的灵活高效的机器学习库。在NIPS研讨会，2015年。5[9] Bowen Cheng ， Yunchao Wei ， Honghui Shi ， RogerioFeris，Jinjun Xiong，and Thomas Huang.重温rcnn：论快速rcnn分类能力的觉醒。在ECCV，2018。8[10] 戴纪峰，易力，何开明，孙建R-FCN：通过基于区域的全卷积网络进行对象检测。在NIPS，2016年。一、二[11] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。InICCV，2017. 三、六[12] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在CVPR，2005年。1[13] Piot rDolla'r，RonAppel，Serr geBelongie，andPietroPer-ona. 用于对象检测的快速特征金字塔。 IEEETransactionsonPatternAnalysisandMachineIntelligence，36（8）：1532-1545，2014. 1[14] Cheng-Yang Fu ， Wei Liu ， Ananth Ranga ， AmbrishTyagi，and Alexander C Berg. Dssd：解卷积单次激发探测器。arXiv：1701.06659，2017。2[15] 罗斯·格希克。快速R-CNN。在ICCV，2015年。2[16] Ross Girshick，Jeff Donahue，Trevor Darrell和JitendraMalik。丰富的特征层次结构，用于精确的对象检测和语义分割。CVPR，2014。一、二、五[17] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面罩R-CNN。InICCV，2017. 2[18] Kaiming He，Xiangyu Zhang，Shaoying Ren，and Jian Sun.深度卷积网络中的空间金字塔池化6063视觉识别 IEEE Transactions on Pattern Analysis andMachine Intelligence，37（9）：1904-1916，2015。2[19] Kaiming He ， Xiangyu Zhang ， Shaoying Ren ， andJian Sun.用于图像识别的深度残差学习。在CVPR，2016年。四、六[20] Matt

下载后可阅读完整内容，剩余1页未读，立即下载