特征金字塔网络：多尺度目标检测的高效解决方案

42 浏览量更新于2023-10-16 收藏 672KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1预测预测预测基于特征金字塔网络的目标检测Tsug-YiLin1，2，PiotrDolla'r1，RossGirshick1，Kaiming He1，Bharath Hariharan1和Serge Belongie21Facebook AI Research（FAIR）2康奈尔大学和康奈尔理工学院摘要特征金字塔是识别系统中用于检测不同尺度的物体的基本组件。但最近的深度学习对象检测器避免了金字塔表示，部分原因是它们是计算和内存密集型的。在本文中，我们利用深度卷积网络固有的多尺度金字塔层次结构来构建具有边际额外成本的特征金字塔。一个自顶向下的架构与横向连接的发展，以建立高层次的语义特征地图在所有尺度。这种架构称为特征金字塔网络（FPN），(a)特征化图像金字塔(c) 金字塔要素层次(b)单一特征图(d) 特征金字塔网络在几个应用中作为通用特征提取器显示出显著的改进在基本的Faster R-CNN系统中使用FPN，我们的方法在COCO检测基准上实现了最先进的此外，我们的方法可以在GPU上以5 FPS运行，因此是多尺度对象检测的实用且准确的解决方案。代码将公开提供。1. 介绍在计算机视觉中，识别不同尺度的物体是一个基本的挑战。基于图像金字塔构建的要素金字塔（简称为要素化图像金字塔）构成了标准解决方案[1]（图1（a））。这些金字塔是比例不变的，因为对象的比例更改会通过在金字塔中移动其级别来抵消。直观地，该属性使模型能够通过在位置和金字塔级别上扫描模型特征化图像金字塔在手工设计特征的时代被大量使用[5，25]。它们是如此的关键，以至于像dos[7]这样的物体探测器需要密集的尺度采样才能达到好的结果（例如，每八度10个音阶）。对于识别任务，工程特征具有图1. （a）使用图像金字塔来构建特征金字塔。在每个图像尺度上独立地计算特征，这是缓慢的(b)最近的检测系统已经选择仅使用单尺度特征来更快地检测。（c）另一种方法是重用ConvNet计算的金字塔特征层次，就好像它是一个特征化的图像金字塔。（d）我们提出的特征金字塔网络（FPN）与（b）和（c）一样快，但更准确。在该图中，特征图由蓝色轮廓指示，并且较粗的轮廓表示语义上较强的特征。很大程度上被深度卷积网络（ConvNets）计算的特征所取代[19，20]。除了能够表示更高级别的语义之外，ConvNets对尺度的变化也更鲁棒，因此有助于从在单个输入尺度上计算的特征中进行识别[15，11，29]（图11，29（b）款。但即使有了这种鲁棒性，仍然需要 pyra-100 来获得最准确的结果。 ImageNet [33]和COCO [21]检测挑战中的所有最近的顶级条目都使用了对特征化图像金字塔的多尺度测试（例如，[16、35]）。特征化图像金字塔的每个级别的主要优点是，它产生多尺度特征表示，其中所有级别在语义上都是强的，包括高分辨率级别。然而，特征化图像金字塔的每一层具有明显的局限性。推理时间显著增加（例如，四倍[11]），使得这种方法对于实际应用不切实际。此外，训练深度2117预测预测预测预测预测预测2118预测预测预测网络端到端的图像金字塔在内存方面是不可行的，因此，如果被利用，图像金字塔仅在测试时使用[15，11，16，35]，这会在训练/测试时推理之间产生不一致。出于这些原因，Fast and Faster R-CNN [11，29]选择在默认设置下不使用然而，图像金字塔不是计算多尺度特征表示的唯一方法。深度ConvNet逐层计算特征层次结构，并且使用子采样层，特征层次结构具有固有的多尺度金字塔形状。该网络内特征层次结构产生不同空间分辨率的特征图，但引入了由不同深度引起的大语义间隙。高分辨率地图具有损害其对象识别的表示能力的低级特征单镜头检测器（SSD）[22]是使用ConvNet的金字塔特征层次结构的第一次尝试之一，（c）第1段。理想情况下，SSD风格的金字塔将重用在前向传递中计算的来自不同层的多尺度特征图，因此没有成本。但是为了避免使用低级特征，SSD放弃重用已经计算的层，而是从网络中的高层开始构建金字塔（例如，vGG网[36]的conv4 3），然后通过添加几个新层。因此，它错过了重用特征层次结构的高分辨率映射的机会。我们表明，这些都是重要的检测小物体。本文的目标是自然地利用ConvNet的特征层次结构的金字塔形状，同时创建一个在所有尺度上都具有强大语义的特征金字塔。为了实现这一目标，我们依赖于一种架构，该架构通过自上而下的路径和横向连接将低分辨率、语义强的特征与高分辨率、语义弱的特征相结合（图10）。1（d））。其结果是在所有级别上具有丰富语义并且从单个输入图像比例快速构建的特征金字塔。换句话说，我们将展示如何创建网络内的功能金字塔，可以用来取代功能化的图像金字塔，而不牺牲代表性的权力，速度或内存。采用自顶向下和跳过连接的类似架构在最近的研究中很流行[28，17，8，26]。他们的目标是生成一个高分辨率的单一高级特征图，并在此基础上进行预测（图1）。2顶部）。相反，我们的方法利用该架构作为特征金字塔，其中预测（例如，对象检测）是独立的，在每个级别（图。2底部）。我们的模型反映了一个特征化的图像金字塔，这在这些作品中还没有被探索。我们在各种检测和分割系统中评估了我们的方法，称为特征金字塔网络（FPN）[11，29，27]。没有花里胡哨的，我们报告了一个最先进的单一模型结果，该结果是基于具有挑战性的COCO检测基准[21]，预测图2. Top：一个自上而下的架构，带有跳跃连接，其中预测是在最精细的级别上进行的（例如[28]）。底部：我们的模型具有类似的结构，但利用它作为特征金字塔，在所有级别上独立进行预测。一个基本的更快的R-CNN检测器[29]，超越了所有现有的竞争获胜者的重设计单一模型条目。在消融实验中，我们发现，对于边界框的建议，FPN显着提高平均召回率（AR）8.0点;对于对象检测，它将COCO风格的平均精度（AP）提高了2.3个点，PASCAL风格的AP提高了3.8个点，超过了ResNets上Faster R-CNN的强大单尺度基线[16]。我们的方法也很容易扩展到掩模的建议，并提高了实例分割AR和速度的国家的最先进的方法，严重依赖于图像金字塔。此外，我们的金字塔结构可以用所有尺度进行端到端的训练，并且在训练/测试时一致地使用，这在使用图像金字塔时是不可行的。因此，FPN能够实现比所有现有的最先进的方法更高的精度。此外，这种改进是在不增加单尺度基线的测试时间的情况下实现的。我们相信这些进展将促进未来的研究和应用。我们的代码将被公开。2. 相关工作手工工程特征和早期神经网络。 SIFT特征[25]最初是在尺度空间极值处提取的，并用于特征点匹配。HOG特征[5]以及后来的SIFT特征都是在整个图像金字塔上密集计算的。这些HOG和SIFT金字塔已被用于图像分类，对象检测，人体姿态估计等许多工作中。也有显着的兴趣，计算特征化的图像pyramidal快速。 Doll a'retal. [6]演示了快速金字塔计算，首先计算稀疏采样（按比例）金字塔，然后插值缺失的水平。在HOG和SIFT之前，使用ConvNets进行人脸检测的早期工作[38，32]计算了图像金字塔上的浅层网络，以跨尺度检测人脸2119----深度ConvNet对象探测器。随着现代深度ConvNets [19]的发展，像Over- Feat [34]和R-CNN [12]这样的对象检测器在准确性方面表现出了显着的提高。OverFeat采用了类似于早期神经网络人脸检测器的策略，将ConvNet应用于在图像金字塔上的滑动窗口检测器。R-CNN采用了一种基于区域提议的策略[37]，其中每个提议在使用ConvNet分类之前都进行了尺度归一化。SPPnet [15]证明，这种基于区域的检测器可以更有效地应用于在单个图像尺度上提取的特征图。最近更准确的检测方法，如 Fast R-CNN [11]和Faster R-CNN[29]，主张使用从单个尺度计算的特征然而，多尺度检测仍然表现得更好，特别是对于小对象。使用多个层的方法。最近的一些方法通过在ConvNet中使用不同的层来改进检测和分割。FCN [24]在多个尺度上对每个类别的部分分数求和以计算语义分割。Hypercolumns [13]使用类似的方法进行对象实例分割。其他几种方法（HyperNet [18]，ParseNet [23]和ION [2]）在计算预测之前连接多个层的特征，这相当于对转换后的特征进行求和。SSD[22]和MS-CNN [3]在特征层次的多个层预测对象，而不组合特征或分数。最近有一些方法利用横向/跳跃连接，将分辨率和语义级别上的低级特征映射相关联，包括用于分割的U-Net [31]和Sharp- Mask [28]，用于面部检测的Repeator网络[17]和用于关键点估计的StackedHourglass网络[26]。Ghiasi等人[8]提出了一个拉普拉斯金字塔表示的FCNs逐步细化分割。虽然这些方法采用金字塔形状的架构，但它们与特征化图像金字塔[5，7，34]不同，在特征化图像金字塔中，在所有级别上独立进行预测，参见图。二、事实上，对于图中2（顶部），仍然需要图像金字塔识别多尺度的物体[28]。3. 特征金字塔网络我们的目标是利用ConvNet由此产生的特征金字塔网络是通用的，在本文中，我们专注于滑动窗口建议器（区域建议网络，简称RPN）[29]和基于区域的检测器（快速R-CNN）[11]。我们还gener- alize FPN的实例分割建议，在第二。六、我们的方法以任意大小的单尺度图像作为输入，输出成比例大小的特征图2x向上1x1转换+预测预测预测图3. 说明横向连接和自上而下路径的构建块，通过添加合并。在多个级别上，以完全卷积的方式。该过程独立于主干卷积体系结构（例如，[19，36，16]），在本文中，我们使用ResNets [16]给出了我们的金字塔结构包括一个自下而上的路径、一个自上而下的路径和横向连接，如下所述。自下而上的路径。自底向上路径是主干ConvNet的前馈计算，其计算由若干尺度的特征图组成的特征层次结构，尺度步长为2。通常有许多层产生相同大小的输出地图，我们说这些层处于相同的网络阶段。对于我们的特征金字塔，我们为每个阶段定义一个金字塔级别。我们选择每个阶段的最后一层的输出作为我们的参考特征图集，我们将丰富它以创建我们的金字塔。这种选择是自然的，因为每个阶段的最深层应该具有最强的特征。具体来说，对于ResNets [16]，我们使用每个阶段的最后一个残差块输出的特征激活。对于conv2、conv3、conv4和conv5输出，我们将这些最后的残差块的输出表示为C2、C3、C4、C5，并且注意，它们相对于输入图像具有4、8、16、32像素的步幅。由于conv1占用大量内存，我们没有将其包括在金字塔中自上而下的路径和横向连接。自上而下的路径通过从更高的金字塔级别上采样空间上更粗糙但语义上更强的这些特征然后通过来自自下而上路径的特征经由横向连接来增强。每个横向连接合并来自自下而上路径和自上而下路径的相同空间大小的特征图自底向上的特征图具有较低级别的语义，但其激活更准确地定位，因为它被子采样更少的次数。图3显示了构建自顶向下特征图的构建块。对于较粗分辨率的特征图，我们将空间分辨率上采样2倍（为简单起见，使用最近邻上采样）。上升-2120×××××××联系我们×--×----然后，通过逐元素加法将PLED映射与相应的自底向上映射（其经历11卷积层以减小信道维度）合并。重复该过程，直到生成最精细的分辨率图。为了开始迭代，我们简单地在C5上附加一个11卷积层以产生粗分辨率映射。最后，我们在每个合并的地图上附加一个3- 3卷积来生成最终的特征地图，这是为了减少上采样的混叠效应。这个最终的特征图集合被称为P2、P3、P4、P5，对应于分别具有相同空间大小的C2、C3、C4、C5因为金字塔的所有级别都使用共享的分类器/回归器，就像传统的特征化图像金字塔一样，我们在所有特征图中固定特征维度（通道数，表示为d在本文中，我们设置d=256，因此所有额外的卷积层都有256个通道产出在这些额外的层中没有非线性，我们根据经验发现这些非线性具有较小的影响。简单性是我们设计的核心，我们发现我们的模型对许多设计选择都是鲁棒我们已经用更复杂的块（例如，使用多层剩余块[16]作为连接），并观察到稍微更好的结果。设计更好的连接模块不是本文的重点，因此我们选择了上述简单的设计。4. 应用我们的方法是在深度ConvNets内部构建特征金字塔的通用解决方案。在下文中，我们采用我们在RPN [29]中的方法来生成边界框建议，并在Fast R-CNN [11]中进行对象检测。为了证明我们的方法的简单性和有效性，我们在将它们适应我们的特征金字塔时对[29，114.1. RPN的特征金字塔网络RPN [29]是一个滑动窗口类不可知的对象检测器。在最初的RPN设计中，在单尺度卷积特征图之上，在密集的3 × 3滑动这是通过一个3 3卷积层，后面是两个用于分类和回归的兄弟1 1卷积来实现的，我们将其称为网络头。对象/非对象标准和边界框回归目标是相对于称为锚点的一组参考框定义的[29]。锚具有多个预定义的尺度和纵横比，以便覆盖不同形状的对象。我们通过用我们的FPN替换单尺度特征图来适应RPN我们将相同设计的头部（3 3 conv和两个兄弟1 1conv）附加到特征金字塔的每个级别由于头部在所有金字塔等级中的所有位置上密集滑动，因此不需要多比例锚定在特定的水平上。相反，我们为每个级别分配单个尺度的锚点。形式上，我们定义锚在P2，P3，P4，P5，P6 上的面积分别为322，642，1282，2562，5122像素1与[29]一样，我们也在每个级别使用多个长宽比1：2，1：1，2：1的锚。所以金字塔上总共有15个锚。我们根据锚点的交集对并集（IoU）比率将训练标签分配给锚点，并使用地面实况边界框，如[29]所示。形式上，如果锚点对于给定的地面实况框具有最高的IoU或者对于任何地面实况框具有超过0.7的IoU，则锚点被分配正标签，并且如果锚点对于所有地面实况框具有低于0.3的IoU，则锚点被分配负标签。请注意，地面实况框的尺度并没有明确用于将它们分配给金字塔的级别;相反，地面实况框与已经被分配给金字塔等级的锚点相关联。因此，除了[29]中的规则之外，我们不引入额外的规则我们注意到，头部的参数在所有特征金字塔级别之间共享;我们还评估了不共享参数的替代方案，并观察到类似的准确性。共享参数的良好性能表明，我们的金字塔的所有级别共享相似的语义级别。这一优势类似于使用特征化图像金字塔，其中常见的头部分类器可以可以应用于以任何图像尺度计算的特征。通过上述调整，RPN可以自然地使用我们的FPN进行训练和测试，与[29]中的方式相同我们详细说明了实验中的实施细节。4.2. 快速R CNN的特征金字塔网络Fast R-CNN [11]是一种基于区域的对象检测器，其中使用感兴趣区域（RoI）池来提取特征。快速R-CNN最常在单尺度特征图上执行。要将其用于我们的FPN，我们需要将不同尺度的ROI分配给金字塔级别。我们认为我们的特征金字塔就像它是从图像金字塔中产生的一样因此，我们可以调整基于区域的检测器[15，11]的分配策略，以适应它们在图像金字塔上运行的情况形式上，我们通过以下方式将宽度为w和高度为h的RoI（在网络的输入图像上）分配给特征金字塔的级别Pk：k=k0+ log2（wh/224）。（1）这里224是标准的ImageNet预训练大小，k0是具有w的RoI的目标水平h = 2242应该映射到。类似于基于ResNet的Faster R-CNN系统[16]，使用C4作为单尺度特征映射，我们将k0设置为4。直观地，Eqn.（1）表示如果ROI1这里我们只引入了P6，以覆盖更大的锚标度5122。P6只是P5的二次采样的一个步长 .P6不被下一节中的FastR-CNN检测器使用。2121×S×××--我们将预测头（在Fast R-CNN中，头是类特定的分类器和边界框回归器）附加到所有级别的所有ROI。同样，头都共享参数，无论其级别如何。在[16]中，ResNet的conv5层（9层深度子网络）被用作conv4特征顶部的头部，但我们的方法已经使用conv5来构建特征金字塔。因此，与[16]不同的是，我们简单地采用RoI池来提取7 7个特征，并在最终分类和边界框回归层之前附加两个隐藏的1，024-d全连接（fc）层（每个层后面都有ReLU）这些层是随机初始化的，因为ResNets中没有预先训练的fc层。请注意，与标准conv 5磁头相比，我们的2-fcMLP磁头重量更轻，速度更快。基于这些调整，我们可以在特征金字塔的顶部训练和测试Fast R-CNN在实验部分中给出了实现5. 目标检测实验我们在80类COCO检测数据集上进行实验[21]。我们使用 80k 个训练图像和 35k 个 val 图像子集（trainval35k[2]）的并集进行训练，并报告5k个val图像子集（minival）的消融。我们还报告了标准测试集（test-std）[21]的最终结果，该测试集没有公开的标签。作为惯例[12]，所有网络骨干都在ImageNet1k分类集[33]上进行预训练，然后在检测数据集上进行微调。我们使用公开的预训练ResNet-50和ResNet-101模型。 2 我们的代码是使用 Caffe 2 重新实现了 py-faster-rcnn345.1. 带RPN的我们按照[21]中的定义评估COCO风格的平均召回率（AR ）和小型，中型和大型对象（ARs，ARm和ARl）我们报告每个图像100和1000 个提案的结果（AR100和AR1k）。实作详细数据。表1中的所有架构都是端到端训练的。输入图像被调整大小，使得其较短边具有800个像素。我们在8个GPU上采用同步SGD训练。小批量涉及每个GPU 2个图像和每个图像256个锚点我们使用的重量衰减为0.0001和动量为0.9。前30k个小批量的学习率为0.02对于所有RPN实验（包括基线），我们包括图像外部的锚框进行训练，这与[29]不同，这些锚框被忽略。其他实现细节如[29]中。在8个GPU上使用FPN训练RPN大约需要8个小时。2https://github.com/rbgirshick/py-faster-rcnnhttps://github.com/kaiminghe/deep-residual-networks4https://github.com/caffe2/caffe25.1.1消融实验与基线的比较。为了与原始RPN [29]进行公平比较，我们使用C4（与[16]相同）或C5的单尺度地图运行两个基线（表1（a，b）），两者都使用与我们相同的超参数，包括使用322，642，1282，2562，5122的5个尺度锚。表1（b）没有示出优于（a）的优点，这表明单个更高级别的特征图是不够的，因为在更粗糙的分辨率和更强的语义之间存在折衷。将 FPN 置于 RPN 中可将 AR1k 改善至 56.3 （表 1（c）），比单量表RPN基线增加8.0分（表1（a））。此外，在小物体（AR1k）上的性能我们的金字塔表示大大提高了RPN自上而下的丰富有多重要？表1（d）显示了我们的特征金字塔的结果，没有自上而下的路径。通过这种修改，11个横向连接，随后是33个回旋，被附接到自下而上的金字塔。该架构模拟了重复使用金字塔特征层次结构的效果（图1）。（b）款。表1（d）中的结果与RPN基线相当，远远落后于我们的结果。我们推测，这是因为自下而上金字塔的不同层次之间存在很大的语义差距（图1）。1（b）），特别是对于非常深的ResNet。我们还评估了表1（d）的变体这个问题不能简单地通过具体级别的负责人来解决。横向联系有多重要？表1（e）示出了没有11个横向连接的自顶向下特征金字塔的烧蚀结果。这种自上而下的金字塔具有较强的语义特征和较好的分辨率。但我们认为这些特征的位置并不精确，因为这些地图已经被下采样和上采样了好几次。更精确的特征位置可以通过横向连接从自下而上映射的更精细级别直接传递到自上而下映射。结果，FPN的AR1k评分比表1（e）高10分金字塔表示法有多重要？相反借助于金字塔表示，可以将头部附加到P2的最高分辨率、强语义特征图（即，我们金字塔中最好的一层）。类似于单尺度基线，我们将所有锚点分配给P2特征图。该变体（表1（f））优于基线，但劣于我们的方法。RPN是一种具有固定窗口大小的滑动窗口检测器，因此扫描金字塔级别可以增加其对尺度方差的鲁棒性此外，我们注意到，单独使用P2会导致更多的锚点（750k，表1（f）），这是由于其空间分辨率很高。这一结果表明，大量的锚本身不足以提高准确性。2122--RPN特征锚钉数量横向？自上而下AR100AR1kAR1kSAR1kMAR1kL(a)conv4基线C447k36.148.332.058.762.2(b)conv5基线C512k36.344.925.355.564.2(c)FPN{Pk}200kCC44.056.344.963.466.2消融实验如下：(d)自下而上金字塔{Pk}200kC37.449.530.559.968.0(e)自上而下金字塔，无横向{Pk}200kC34.546.126.557.464.7(f)只有最好的水平P2750kCC38.451.335.159.767.6表1.使用RPN [29]的边界框建议结果，在COCOminival集上进行评价所有模型都在trainval35k上训练。列“特征”列所有结果均基于ResNet-50，并共享相同的超参数。Fast R-CNN建议特征头横向？自上而下AP@0.5APAPsAPmAPl(a) conv4基线(b) conv5基线(c) FPNRPN，{Pk}RPN，{Pk}RPN，{Pk}C4C5{Pk}conv52fc2FCCC54.752.956.931.928.833.915.711.917.836.532.437.745.543.445.8消融实验如下：(d) 自下而上金字塔(e) 自上而下金字塔，无横向(f) 只有最好的水平RPN，{Pk}RPN，{Pk}RPN，{Pk}{Pk}{Pk}P22fc2fc2FCCCC C44.954.056.324.931.333.410.924.4 三十八点五13.335.2 四十五点三17.337.3 四十五点六分表2.使用Fast R-CNN[11]在固定的一组建议（RPN，Pk，表1（c））上进行的对象检测结果，在COCO上进行评估迷你套装模型在trainval35k集合上训练所有结果均基于ResNet-50，并共享相同的超参数。Faster R-CNN建议特征头横向？自上而下AP@0.5APAPsAPmAPl（*）来自Heet al. [16]RPN，C4C4conv547.326.3---(a)conv4基线RPN，C4C4conv553.131.613.235.647.1(b)conv5基线RPN，C5C52FC51.728.09.631.943.1(c)FPNRPN，{Pk}{Pk}2FCC C56.933.917.837.745.8表3. 使用更快的R-CNN[29]在COCOminival集上评估的对象检测结果。RPN的骨干网络与Fast R-CNN一致。模型在trainval 35 k集合上训练，并使用ResNet-50。[16]由作者提供。5.2. 使用Fast/Faster R CNN进行目标检测接下来，我们调查FPN区域为基础的（非滑动窗口）检测器。我们通过COCO风格的平均精度（AP）和PASCAL风格的AP（在单个IoU阈值为0.5时）来评估对象检测。我们还根据[21]中的定义报告了小、中、大尺寸对象（即APs、APm和APl实作详细数据。输入图像被调整大小，使得其较短边具有800个像素。同步SGD用于在8个GPU上训练模型。每个小批量包含每个GPU 2个图像和每个图像512个ROI。我们使用的重量衰减为0.0001和动量为0.9。前60k个小批量的学习率为0.02，下20k个小批量的学习率为0.002。我们使用每个图像2000个RoI用于训练，1000个RoI用于测试。使用FPN训练Fast R-CNN在COCO数据集上大约需要10个小时。5.2.1快速R-CNN（基于固定提案）为了更好地研究FPN我们决定冻结提案，因为-2123×RPN对FPN的评价（表1（c）），因为它对探测器识别的小物体具有良好为了简单起见，我们不会在FastR-CNN和RPN之间共享功能，除非指定。作为基于ResNet的Fast R-CNN基线，在[16]之后，我们采用输出大小为14 14的RoI池，并将所有conv 5层作为头部的隐藏层这在表2（a）中给出31.9的AP表2（b）是利用具有2个隐藏fc层的MLP头的基线，类似于我们的架构中的头。它得到的AP为28.8，表明2-fc头部相对于表2（a）中的基线没有任何正交优势。表2（c）显示了我们的FPN在Fast R-CNN中的结果。与表2（a）中的基线相比，我们的方法使AP提高了2.0分，小物体AP提高了2.1分。与同样采用2fc头部的基线（表2（b））相比，我们的5这些比较表明，对于基于区域的对象检测器，我们的特征金字塔优于表2（d）和（e）表明，取消自上而下的控制，5我们期望头部[30]的更强架构将改善我们的结果，这超出了本文的重点。2124--方法骨干竞争图像金字塔test-dev测试标准AP@。5APAPsAPm APlAP@。5APAPsAPm APl我们的，FPNResNet-101-59.136.218.239.048.258.535.817.538.747.8竞赛获奖单型号结果如下：G-RMI†inception-ResNet2016-34.7--------旅游景点[10]VGG16 +宽ResNet§2016C53.435.715.638.052.752.935.314.737.651.9更快的R-CNN +ResNet-1012015C55.734.915.638.750.9-----多路径[40]（迷你版）VGG-16201549.631.5--------[2]VGG-16201553.431.212.832.945.252.930.711.832.844.8表4. COCO检测基准上单模型结果的比较。一些结果在test-std集上不可用，因此我们还包括test-dev结果（以及minival上的Multipath [40]）。†：http://image-net.org/challenges/talks/2016/GRMI-COCO-slidedeck.pdf.‡：http://mscoco.org/dataset/#detections-leaderboard。§：AttractioNet [10]的这个条目采用VGG-16用于提案，Wide ResNet [39]用于对象检测，因此严格来说不是单一模型的结果。连接或移除横向连接导致较差的结果，类似于我们在上述RPN小节中观察到的结果。值得注意的是，删除自上而下的连接（表2（d））显着降低了准确性，这表明Fast R-CNN在高分辨率地图上使用了低级特征。在表2（f）中，我们在P2的单个最细尺度特征图上采用Fast R-CNN。其结果（33.4 AP）略差于使用所有金字塔等级的结果（33.9 AP，表2（c））。我们认为，这是因为ROI池是一个扭曲的操作，这是不敏感的区域尽管该变体具有良好的准确性，但它基于Pk的RPN建议，因此已经从金字塔表示中受益。ResNet-50ResNet-101共享功能？AP@0. 5APAP@0. 5AP没有是的56.957.233.934.358.058.235.035.2表5.使用更快的R-CNN和我们的FPN获得更多的对象检测结果，在minival上进行评估。共享功能将训练时间增加了1.5倍（使用4步训练[29]），但减少了测试时间。表5中，我们按照[29]中描述与[29]类似，我们发现共享特征可以小幅提高准确性。功能共享还可以减少测试时间。运行时间。通过功能共享，我们基于FPN的Faster R-CNN系统在单个NVIDIA M40 GPU上的ResNet-50推理时间为0.165秒，5.2.2更快的R-CNN（基于一致的建议）在上文中，我们使用了一组固定的建议来研究检测器。但在Faster R-CNN系统中，RPN和Fast R-CNN必须使用相同的网络骨干，以便实现特征共享。表3显示了我们的方法和两个基线之间的比较，所有基线都使用RPN和Fast R-CNN的一致表3（a）显示了我们对[16]中描述的基线Faster R-CNN系统的再现。在受控设置下，我们的FPN（表3（c））比该强基线好2.3分AP和3.8分AP@0.5。请注意，表3（a）和（b）是基线，强于He等人提供的基线。[16]见表3（*）。我们发现以下实现有助于差距：（i）我们使用800像素的图像比例，而不是[11，16]中的600像素;（ii）我们用每个图像512个ROI进行训练，这加速了收敛，而不是[11，16]中的64个ROI(iii)我们使用5个比例锚而不是[16]中的4个（增加322）;（iv）在测试时，我们使用每个图像1000个建议，而不是[16]中的300个与他等相比，s ResNet-50更快的R-CNN基线在表3（*）中，我们的方法将AP提高了7.6个点，将AP@0.5提高了9.6个点。共享功能。在上文中，为了简单起见，我们不共享RPN和Fast R-CNN之间的特征在Ta-2125×而ResNet-101则是0.19秒。6作为比较，表3（a）中的单尺度ResNet-50基线运行时间为0.32秒。我们的方法通过FPN中的额外层引入小的额外成本，但是具有更轻的重量头。总的来说，我们的系统比基于ResNet的Faster R-CNN更快。我们相信我们的方法的效率和简单性将有利于未来的研究和应用。5.2.3与COCO竞赛获奖者比较我们发现表5中的ResNet-101模型没有使用默认学习率计划进行充分训练。因此，在训练Fast R-CNN步骤时，我们在每个学习率下将小批量的数量增加2。这将minival上的AP增加到35.6，而不共享功能。这个模型是我们提交给COCO检测排行榜的，如表4所示。由于时间有限，我们还没有评估它的功能共享版本，如表5所示，它应该稍微好一些。表4将我们的方法与COCO竞赛获胜者的单模型结果进行了比较，包括2016年在不增加额外功能的情况下，我们的单一型号产品已经超越了这些强大的、经过精心设计的竞争对手。6这些运行时是从本文的早期版本更新的。2126√×××××××5x514x14320x320 [256x256]5x514x14160x160 [128x128]5x514x1480x80 [64x64]图像金字塔AR ARs ARm ARl时间[27]第二十七话C37.1 15.850.1 54.90.49[28]第二十八话C39.8 17.453.1 59.10.77InstanceFCN [4]C39.2–––1.50†图4. 对象段建议的FPN。特征金字塔的构造与目标检测的结构相同。我们在5×5窗口上应用一个小的MLP来生成密集的对象片段，输出尺寸为14×14。橙色显示的是每个pyra对应的掩模图像区域的大小。中级（此处显示的是P3 - 5级）。示出了对应的图像区域尺寸（浅橙色）和规范对象尺寸（深橙色）两者。半倍频程由7x7窗口（7 × 5）上的MLP处理（2）这里没有显示。详情见附录。在测试开发集上，我们的方法比前最佳结果增加了0.5个AP点（36.2vs.35.7）和3.4点AP@0.5（59.1vs.55.7）。值得注意的是我们的方法不依赖于图像金字塔，单个输入图像尺度，但在小尺度物体上仍具有突出的AP。这只能通过使用先前方法的高分辨率图像输入来实现。此外，我们的方法没有利用许多流行的改进，例如迭代回归[9]，硬否定挖掘[35]，上下文建模[16]，更强的数据增强[22]等。这些改进是FPN的补充，应该进一步提高准确性。最近，FPN在COCO竞赛的所有赛道中启用了新的顶级结果，包括检测，实例分割和关键点估计。详情见[14]6. 扩展：细分建议我们的方法是一个通用的金字塔表示，可以用于其他应用程序中的对象检测。在本节中，我们使用FPN来生成分割建议，遵循DeepMask/SharpMask框架[27，28]。在图像裁剪上训练DeepMask/SharpMask，以预测实例片段和对象/非对象得分。在推理时，这些模型以卷积方式运行，以在图像中生成密集的建议为了在多个尺度下生成片段，图像金字塔是必要的[27，28]。很容易调整FPN以生成掩码建议。我们使用完全卷积设置进行训练和推断。我们构建我们的特征金字塔，如在Sec。5.1，并设置d=128。在特征金字塔的每个级别的顶部，我们应用一个小的5 × 5 MLP以完全卷积的方式预测14 × 14掩模和对象得分，见图。4.第一章此外，受[27，28]的图像金字塔中每个八度音阶使用2个尺度的启发，我们使用输入大小为7 7的第二个MLP来处理半个八度音阶。这两个MLP在RPN中扮演着类似的角色该架构是端到端训练的;完整的实现细节在附录中给出。表6.在前5k COCOval图像上评估的实例分割建议所有模型都在列车集上进行训练。DeepMask、SharpMask和FPN使用ResNet-50，而Instance- FCN使用VGG-16。DeepMask和SharpMask 性能使用 https ： //github 上的模型计算。com/facebookresearch/deepmask（两者都是“zoom”变体）。†运行时间是在NVIDIA M40 GPU上测量的，但InstanceFCN计时除外，它基于较慢的K40。6.1. 细分建议结果结果示于表6中。我们报告分段AR和分段AR对小，中型和大型对象，总是为1000个建议。我们的基线FPN模型，5 5 MLP实现了43.4的AR。切换到稍大的7 7 MLP，精度基本不变。同时使用两个MLP将准确度提高到45.7AR。增加- ING掩码输出大小从14 14到28 28增加AR另一个点（较大的尺寸开始降低精度）。最后，将训练迭代加倍将AR增加到48.1。我们还报告了与DeepMask[27]，Sharp- Mask [28]和InstanceFCN [4]的比较，这是掩模提案生成中的先前最先进的方法我们的表现更胜一筹这些方法的准确性超过8.3点AR。特别是，我们在小物体上的精度几乎提高了一倍。现有的掩模建议方法[27，28，4]基于密集采样的图像金字塔（例如，以2：0{-2：0}缩放。5：1}在[27，28]），使他们计算昂贵。我们的方法基于FPN，速度快得多（我们的模型运行在4到6 fps）。这些结果表明，我们的模型是一个通用的特征提取器，可以取代图像金字塔用于其他多尺度检测问题。7. 结论我们已经提出了一个干净简单的框架，用于在ConvNets中构建特征金字塔。我们的方法显示出显着的改进，在几个强大的基线和竞争的赢家。因此，它提供了一个实用的解决方案，研究和应用的特征金字塔，而不需要计算图像金字塔。最后，我们的研究表明，尽管深度ConvNets具有强大的代表性，并且对尺度变化具有隐式鲁棒性，但使用金字塔表示来显式解决多尺度问题仍然至关重要。FPN面罩结果：单MLP[5×5]43.4三十二点五49.2 53.70.15单MLP[7×7]43.530.049.6 57.80.19双MLP [5× 5，7 ×7]45.7三十一点九

下载后可阅读完整内容，剩余1页未读，立即下载