单阶段目标检测方法中的特征化图像金字塔

111 浏览量更新于2023-10-18 收藏 2.95MB PDF 举报

天津大学

特征金字塔

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1一种用于单点检测器的天津大学电气与信息工程学院，天津大学2阿联酋Inception Institute of Artificial Intelligence3瑞典林可平大学电气工程系计算机视觉工程师1{pyw，wangtc}@ tju.edu.cn，2{rao.anwer，fahad.khan，ling.shao}@ inceptioniai.org摘要单级目标检测器由于其高检测精度和实时速度的综合优势，最近获得了流行。然而，尽管这些探测器在标准尺寸物体上取得了有希望的结果，但它们在小物体上的性能远不能令人满意。为了检测非常小/大的对象，可以利用经典的金字塔表示，其中图像金字塔用于构建特征金字塔（特征化图像金字塔），从而实现跨尺度范围的检测。前单级检测器避免了这种特征化的图像金字塔表示，由于其内存和时间的复杂性。在本文中，我们介绍了一个轻量级的架构，有效地产生特征化的图像金字塔在一个单阶段的检测框架。然后，使用注意模块将所得到的我们的检测器的性能验证了两个基准：PASCAL VOCCOCO小姐对于300× 300输入，我们的检测器在TitanX GPU上以111帧每秒（FPS）的速度在PASCAL VOC 2007测试集上提供最先进的检测精度。在MS COCO测试集上，我们的检测器在单尺度推理的情况下实现了超越所有现有单阶段方法的最先进的结果。1. 介绍通用目标检测是计算机视觉中的基本问题之一通用对象检测的最新进展在很大程度上归功于卷积神经网络（CNN）在检测框架中的成功部署。通常，深度对象检测方法可以*同等贡献大致分为两类：两级[13，14，16，29]和单级检测器[19，28，5]。在两阶段方法中，首先生成对象建议，然后对其进行分类和回归。另一方面，单阶段方法通过对输入图像上的网格进行采样，将默认锚点直接回归到检测框中。单级对象检测器通常计算效率高，但与两级对象检测器相比，检测精度较差[18]。在单阶段方法中，单次激发多盒检测器（SSD）[28]最近已被证明在速度和检测精度之间提供了最佳权衡标准SSD利用VGG-16架构作为基础网络，并在截断的基础网络的末端添加更多的卷积（conv）特征层。在SSD中，独立的预测是由不同分辨率的层进行的，其中浅层或前层有助于预测小物体，而深层或后层则用于检测大物体。尽管SSD取得了成功，但它很难处理对象实例之间的大规模变化。特别是，SSD在小目标上的检测性能远远不能令人满意[18]，这可能是由于浅层或前层中的信息有限。在文献中已经提出了多种解决方案来缓解由尺度变化引起的问题特征金字塔是许多识别系统中的重要组成部分，形成了标准解决方案的基础[1]。从图像金字塔构建特征金字塔（特征化图像金字塔）长期以来一直被追求并用于许多经典的手工制作方法[11，9]。现代深度目标检测器通常还采用某种形式的金字塔表示，即使在这些方法中使用的CNN对尺度变化是鲁棒的。对于两阶段方法，早期的作品[29，13]提倡使用单尺度特征（见图11）。（c）第1段。相比之下，最近的两阶段方法[24]已经研究了特征金字塔以获得更准确的检测（见图2）。（b）款。73367337(a)特征化图像金字塔(b)特征金字塔(c)单尺度特征（d）特征金字塔层次结构（e）我们的产生特征金字塔的浅卷积块，其中图像金字塔的每一级被特征化。然后将来自特征金字塔的多尺度特征与标准SSD特征在注意力模块中相结合，以提高区分能力。此外，我们还引入了一个前向融合模块来融合前一层和当前层的特征。我们在两个基准上进行了大量的实验：PASCALVOC和MS COCO。我们的检测器在两个数据集上都提供了优于现有单个数据集的结果。图像标准特征地图轻量级特征映射预测特征图阶段方法。此外，我们的方法显著地提供图1.比较我们的方法与不同架构的多尺度对象检测。(a)图像金字塔用于构建特征金字塔，其中特征独立地从各种尺度的图像构建。(b)[24]中采用的特征金字塔网络以逐层自顶向下的融合方案组合特征(c)快速和更快的R-CNN中使用的快速检测的单尺度特征[13，29]。(d)标准SSD中采用的金字塔特征结构，其中特征金字塔由CNN构建[28]。(e)我们的架构像（a）一样精确，但由于提出的轻量级卷积块（Sec.3.2）并与（d）合并。在这里，目标是通过对低分辨率特征图进行上采样并将其与高分辨率特征图融合来利用高级语义。然而，这种方法对于非常小和大尺寸的光纤仍然是次优的[32]. 对于非常小的对象，即使很大的上采样因子也无法与预训练网络的典型分辨率（224×224因此，由特征金字塔网络生成的高级语义特征仍然不足以用于非常小的对象检测，亦然此外，由于许多层的逐层融合，这种方法在计算上是昂贵的。在单阶段方法的情况下，SSD在金字塔特征层次结构中利用多个CNN层，产生不同空间分辨率的特征图（见图1）。1（d））。然而，以牺牲高级语义信息为代价的空间分辨率在这项工作中，我们的目标是提高SSD的准确性，而不牺牲其标志性的速度。我们重新访问经典的图像金字塔方法（见图1）。1（a）），其中通过在单级检测框架中分别对每个图像尺度应用CNN来生成不同尺度的特征图。然而，基于标准图像金字塔的特征表示（特征化图像金字塔）是缓慢的，因为每个图像尺度都通过深度CNN来提取尺度特定的特征图，从而使得其使用对于高速SSD是不切实际的。贡献：我们引入了一个轻量级的特征化图像金字塔网络（LFIP），以产生一个多尺度的特征表示。在LFIP网络中（参见图1（e）），输入图像首先被迭代地下采样以构建图像金字塔层级，其然后被馈送到与基线SSD相比，在MS COCO小集合上，小对象的结果得到了改善，平均精度（AP）绝对增益为7.4%2. 基线探测器：SSD我们的方法基于SSD [28]，它采用VGG-16架构作为骨干网络。给予对于300×300的输入图像I，SSD使用原始VGG-16架构中特征尺寸为38×38的conv 4 3层和特征尺寸为19×19的FC 7（转换为conv层）。它截断最后一个完全连接的层，VGG-16网络，并进一步增加了一系列渐进的更小的卷积层：conv8 2、conv9 2、conv10 2和conv11 2，特征尺寸为10×10、5×5、3×3和1×1，分别在端部用于检测。检测-tor采用金字塔层次结构，层（即， conv4 3）预测小对象实例和深层（即，conv8 2）检测大对象实例。以这种方式，上述层中的每一个都用于在预定义的边界集合上的分数预测和偏移。箱.分数预测由3×3×N过滤器维度执行，其中N是通道数。反然后，应用非最大抑制（NMS）以获得最终检测分数。详情请参阅[28]如上所述，标准SSD通过利用多个CNN层以金字塔层级定位对象，其中每个层被指定为检测特定尺度的对象。这意味着小对象实例使用具有小感受野的前层来检测，而具有大感受野的深层用于定位大对象实例。然而，与深层相比，由于浅层中的信息有限，SSD难以准确检测小对象实例[18]。Fu等人[12]提出使用反卷积层来引入大规模上下文和更好的特征提取网络（ResNet）来提高准确性。Cao等人[4]还研究了小目标检测问题，并将上下文信息引入SSD。然而，这些方法以降低速度为代价来改进SSD。此外，附加的上下文信息可能引入不必要的背景噪声，导致在某些情况下准确度的Zhang等人[34]延伸7338F检测转换层轻量级卷积块前向融合模块输入图像S标准SSD功能低级特征SFSfSFC4Fc7C8和C9轻量化特征高级特征（c）前向融合模块下采样轻量级特征化图像金字塔网络(a)我们探测器(d)轻量级特征化图像金字塔网络图2. (a)我们的单级物体探测器的整体架构。我们的方法扩展了SSD与轻量级特征化图像金字塔网络（LFIP），其架构如（d）所示。在LFIP网络中，首先对输入图像进行迭代下采样，以构建图像金字塔层次结构。然后，将图像金字塔层级输入到浅卷积块，该浅卷积块产生通过特征化图像金字塔的每个级别来形成特征金字塔。然后使用（b）中所示的注意力模块将所得特征金字塔注入标准SSD预测层。我们还引入了一个前向融合模块来整合来自前一层和当前层的调制特征，如（c）所示。通过集成语义分割分支来改进标准SSD。相反，我们重新审视了从图像金字塔构建特征金字塔的经典方法，而不会牺牲SSD的标志性速度3. 方法在这里，我们首先描述了我们的方法的整体架构，并介绍了一种替代的特征提取策略，在我们的轻量级特征化图像金字塔网络模块中使用。然后，我们介绍了特征注意和前向融合模块。我们的检测器，命名为LFIP-SSD的整体架构，如图所示第2段（a）分段。LFIP-SSD由两个主要部分组成：标准SSD网络和提出的轻量级特征化图像金字塔网络（LFIP）来产生特征金字塔表示。与[28]一样，我们使用VGG-16作为骨干，并添加一系列逐渐变小的conv层。与标准SSD不同，LFIP包含迭代下采样和轻量级卷积块。LFIP中的功能随后注入标准SSD(a)标准特征提取图像X8特性浅型Conv块图像降采样X8特性转换块+池化转换块+池化(b)轻量级特征提取算法图3.比较我们的特征提取策略，在LFIP网络中使用，与其标准的SSD对应。(a)标准SSD特征提取：卷积块与重复的步幅和最大池化操作一起生成特征。这里，“X8”表示以步长8执行下采样。(b)LFIP中提出的特征提取：首先将输入图像下采样到目标尺寸，然后使用浅卷积块来提取特征。语义上强，它们倾向于丢失可能有助于准确对象分类的区别性信息。作为替代方案，我们引入了一种有效的特征提取策略（见图1）。第3（b）段）。在我们的策略中，输入图像首先通过插值或池化操作进行下采样，以达到不同SSD预测层的所需目标大小然后，这些下采样的图像被层使用注意力模块。由此产生的功能然后在前向融合模块中将当前层与它们的前一层相互3.1. 特征提取策略传统的对象检测框架通常从VGG-16或ResNet-50中提取特征，在卷积块和最大池化操作的重复堆栈中（见图2）。3（a））。虽然由此产生的功能是通过一个浅卷积块。与传统图像金字塔网络中的深层CNN相比，我们的浅层卷积块提供了高速检测所需的计算效率，同时增强了多尺度检测的判别信息。3.2. 轻量级特征化图像金字塔如前所述，标准的特征化图像金字塔是低效的，因为每个图像比例都要通过⊕S1x1 5121x1 10243x3 2561x1 2561x1 5121x1 2563x3 1281x1 1283x3 1281x1 1283x3 641x1 643x3 128 3x3 256 3x3 128迭代下采样输入图像ReLUBN3x3转换BN3x3转换ReLUBNBN7339深度CNN来提取尺度特定的特征图。因此，高速单级检测器倾向于避免这种情况。特征化图像金字塔表示。在这里，我们提出了一个简单而有效的解决方案，有效地构建一个轻量级的特征化图像金字塔（LFIP）表示。如图如图2（d）所示，LFIP网络包括迭代下采样部分和轻量卷积块。给定输入图像I，首先通过迭代下采样构建图像金字塔IpIp={i1 ， i2 ， . . .， in}（1）其中n表示图像金字塔等级的数量。金字塔中的图像比例被选择为匹配标准SSD预测层图的大小，例如conv4 3。然后，每个图像尺度都经过浅卷积块，用于生成多尺度轻量特征图：Sp={s1 ， s2 ， . . .， sn}（2）其中s1表示标准SSD网络的conv4 3层的轻量级特征，s n表示SSD网络的conv 9 2层生成的最后特征。浅卷积块包括一个3×3卷积层和一个瓶颈块，如[ 17 ]所示，但没有身份捷径。身份快捷方式有由于我们卷积块的浅性质而被跳过。我们的浅层卷积块中的卷积层在通道数量上有所不同，以将所产生的轻量级特征化图像金字塔与标准SSD特征图相匹配。3.3. 功能注意模块在这里，我们描述了如何将LFIP网络生成的轻量级特征化图像金字塔注入标准SSD预测层。我们引入了一个特征关注模块（FAM），如图所示。第2段（b）分段。首先，轻量特征化图像金字塔和标准SSD特征图都通过批量规范（BN）层进行归一化。我们考虑不同的方法来融合归一化特征集：级联、逐元素求和和逐元素乘积。我们发现该元件级产品提供最佳性能。因此，我们使用ReLU激活和3×3 conv层来生成调制特征。对于输入图像I，标准SSD特征fk来自第kSSD预测。层与相应的轻量级LFIP特征sk组合为：其中m k是融合后的调制特征，）表示包括串行ReLU和3×3的操作conv层和β（. ）表示BN操作。如图所示(a) 输入图像（b）SSD特征（c）调制特征图4.比较从标准SSD中的conv4 3层获得的特征图和我们在特征注意模块之后的调制特征。图4.我们的调制特征增强了标准SSD特征的区分能力。3.4. 前向融合模块为了进一步增强空间信息，我们引入了一个简单的前向融合模块（FFM），以整合来自前一层和当前层的调制特征（图1）。第2段（c）分段）。我们采用FFM模块的层从FC7到conv9 2。在实况调查中，首先通过一个3×3的conv层，以实现相同的大小与当前图层相同。然后，前mk-1和cur-1，通过BatchNorm（BN）传递rent_m_k调制特征，并使用逐元素求和操作来组合。这之后是ReLU操作，以产生最终预测dk，如下所示：dk=γ（φk（mk−1）<$β（mk））（4）其中φ k（. ）表示包括串行3x3 conv和BN层的操作，β（. ）是BN操作，γ是ReLU激活。4. 实验我们通过在两个数据集上进行实验来验证我们的方法：PASCAL VOC和MS COCO。我们首先介绍了这两个数据集，然后讨论我们提出的检测器的实现细节。我们比较了我们的探测器与最先进的目标检测方法从文学，erature，也提供了一个全面的消融研究PASCAL VOC 2007数据集。73404.1. 数据集PASCAL VOC [10]：PASCAL VOC数据集由20个不同的对象类别组成。对于该数据集，在具有5k图像的VOC 2007训练集和具有11k图像的VOC 2012训练集在PASCAL VOC 2007测试中使用5k图像进行评估。目标检测准确度是以平均平均精度mAP来衡量的。MS COCO [26]：MS COCO数据集由16万张图像组成，包含80个对象类别。该数据集包含80k训练，40k验证和40k测试开发图像。为MS COCO，对来自训练集的120k图像进行训练，并对测试开发集进行评估我们遵循标准的MS COCO协议进行评估，其中整体性能，平均精度AP，通过在多个IOU阈值上取平均值来测量，范围从0.5到0.95。4.2. 实现细节所有实验都使用在ImageNet [30]上预训练的VGG-16[ 31]我们完整的训练和测试代码是基于Pytorch构建的，并且将公开提供。我们遵循与基线SSD类似的设置[28]进行模型初始化和优化。前六个时期采用预热策略的对于 PASCAL VOC 数据集，学习率首先设置为2×10−3，然后在150和200 epoch时分别逐渐降低到10−4和10−5 就COCO女士而言，相同的学习速率值（在PASCAL VOC中使用）在90和120个时期处减小。在[28]之后，我们使用相同的损失函数，默认框的尺度和宽高比以及数据增强方法。我们将权重衰减设置为0.0005，将动量设置为0.9。两个数据集的批大小均设置为32。分别对PASCAL VOC和MS COCO数据集执行了总计250和160个epoch。VGG骨干和LFIP的浮点数分别为1.6G和0.9GLFIP的FLOP主要来自卷积运算，然后是逐元素乘法和加法。4.3. Pascal VOC 2007我们首先将我们的检测器与基线SSD和其他现有的单级检测器进行比较。为了进行公平的比较，我们对探测器和基线SSD使用相同的设置选项卡. 图1显示了我们的检测器与基线SSD和其他几种单级检测方法在速度和检测精度方面的比较。基线SSD在以120 FPS运行时实现了77.2的检测mAP评分。在现有的单级检测器中，Refinedet [33]和DES [34]分别在40和77 FPS下运行时提供80.0和79.7 mAP的检测精度。我们的探测器提供了一个最佳的权衡之间的检测精度和速度，方法骨干输入大小地图FPSSSD [28]VGG-16300 ×30077.2120R-SSD [20]VGG-16300 ×30078.535跑步[23]VGG-16300 ×30079.240ESSD [35]VGG-16300 ×30079.425DSSD [12]ResNet-101321 ×32178.69.5DES [34]VGG-16300 ×30079.776.8WeaveNet [6]VGG-16320 ×32079.750Refinedet [33]VGG-16320 ×32080.040.3我们VGG-16300 ×30080.4111表1.在PASCAL VOC 2007测试集上，我们的方法与现有的单级检测器的对于所有检测器，输入图像大小约为100x300。为了进行公平的比较，所有检测器的速度都是在单颗Titan X GPU（Maxwell架构）。最好的两个结果以红色和蓝色显示。我们的检测器提高了3.2%的检测精度在mAP超过基线SSD。此外，我们的检测器提供了一个最佳的权衡检测精度和速度相比，现有的单级检测器。在111 FPS下运行时，检测精度为80.4 mAP。最先进的对比：在这里，我们将我们的检测器与最先进的单级和两级检测进行比较方法.选项卡. 2显示了不同输入图像大小的每类比较。一般来说，两阶段对象检测方法[29，7]与单阶段方法相比，采用大图像作为输入（约1000×600其中两个-阶段对象检测器，CoupleNet [36]具有多尺度测试，提供82.7 mAP的改进性能在单阶段方法中，当使用大小为（1）的输入图像时，Refinedet [33]实现了81.8512×512）。对于相同的输入图像大小，我们的检测-tor实现类似的检测精度，同时提供2.7-与Refinedet相比，加速倍数[33]。运行时间分析：图5显示了我们的检测器与最先进的单阶段和两阶段方法在VOC 2007测试集上的准确度与速度比较。所有检测速度都是在一个泰坦X GPU（麦克斯韦架构）上测量的我们的检测器以111 FPS处理图像，而基线SSD以120 FPS运行在现有方法中，两阶段CoupleNet [36]以8 FPS的速度提供了优异的检测结果。与CoupleNet相比，我们的检测器提供了13倍的加速[36]。4.4. PASCAL VOC 2007我们进行了消融研究，以验证我们的探测器中提出的不同模块分析了不同的下采样策略、不同的卷积块深度和轻量级多尺度特征对检测性能的影响下采样策略：我们研究了三种常用的下采样策略来构建图像金字塔：双线性插值、最大池化和平均池化。选项卡. 3（左）显示使用7341CoupleNetR-FCNRSSDDSSD细化检测我们DESWeaveNetYOLOv2DSODSSD离子罗恩FRCN方法主干输入大小mAP速度航空自行车鸟船瓶巴士车猫椅子牛桌子狗马自行车人植物羊沙发火车电视两级检测器：[29]第二十九话VGG-161000×60073.27.0 76.5 79.0 70.9 65.5 52.183.1 84.7 86.4 52.0 81.9 65.7 84.8 84.677.576.738.8 73.673.9 83.0 72.6[17]第十七话ResNet-1011000×600 76.45.0 79.8 80.7 76.2 55.985.1 85.3 89.8 56.7 87.8 69.4 88.3 88.980.978.441.7 78.679.8 85.3 72.0爱奥尼亚[2]VGG-161000×60076.51.2 79.2 79.2 77.4 69.8 55.785.2 84.2 89.8 57.5 78.5 73.8 87.8 85.981.375.349.7 76.974.6 85.2 82.1超级网络[22]VGG-161000×60076.30.9 77.4 83.3 75.0 62.483.1 87.4 87.4 57.1 79.8 71.4 85.1 85.180.079.151.2 79.175.7 80.9 76.5R-FCN [7]ResNet-1011000×600 80.59.0 79.9 87.2 81.5 72.0 69.886.8 88.5 89.8 67.0 88.1 74.5 89.8 90.679.981.253.7 81.881.5 85.9 79.9CoupleNet MS [36]ResNet-1011000×600 82.78.2 85.7 87.0 84.8 75.5 73.388.8 89.2 89.6 69.8 87.5 76.1 88.9 89.087.286.259.1 83.683.4 87.6 80.7单级检测器：SSD [28]VGG-16300×30077.5 120.0 79.5 83.9 76.0 69.6 50.587.0 85.7 88.1 60.3 81.5 77.0 86.1 87.584.079.452.3 77.979.5 87.6 76.8[21]第二十一话VGG-16384×38475.4 15.0 86.5 82.9 76.6 60.9 55.881.7 80.2 91.1 57.3 81.1 60.4 87.2 84.884.981.751.9 79.168.6 84.1 70.3DSSD [12]ResNet-101321×321 78.69.5 81.9 84.9 80.5 53.985.6 86.2 88.9 61.1 83.5 78.7 86.7 88.786.779.751.7 78.080.9 87.2 79.4Refinedet [33]VGG-16320×32080.0 40.3 83.9 85.4 81.4 75.5 60.286.4 88.1 89.1 62.7 83.9 77.0 85.4 87.186.782.655.3 82.778.5 88.1 79.4我们VGG-16300×30080.4111.0 84.0 85.8 78.2 75.3 60.888.6 87.6 87.9 63.3 83.878.9 86.0 87.788.681.956.8 80.880.588.279.1SSD [28]VGG-16512×51279.5 60.0 84.8 85.1 81.5 73.0 57.887.8 88.3 87.4 63.5 85.4 73.2 86.2 86.783.982.555.6 81.779.0 86.6 80.0DES [34]VGG-16512×51281.7 31.7 87.7 86.7 85.2 76.3 60.688.7 89.0 88.0 67.0 86.9 78.0 87.2 87.987.484.459.2 86.179.2 88.1 80.5DSSD [12]ResNet-101513×513 81.55.5 86.6 86.2 82.6 62.589.0 88.7 88.8 65.2 87.0 78.7 88.2 89.087.583.751.1 86.381.6 85.7 83.7Refinedet [33]VGG-16512×51281.8 20.1 88.7 87.0 83.2 76.5 68.088.5 88.7 89.2 66.5 87.9 75.0 86.8 89.287.884.756.2 83.278.7 88.1 82.3我们VGG-16512×51281.853.0 86.688.2 81.7 76.1 66.689.0 89.286.166.5 87.379.2 85.3 88.787.584.257.9 83.779.8 87.482.9表2.基于PASCAL VOC 2007数据集的每类最新技术水平比较。所有的检测方法都是在VOC 2007和VOC 2012的联合训练上训练的，并在VOC 2007测试上测试当与单级检测器比较时，如果我们的数字是列中最好的两个，则用红色和蓝色标记我们的两种检测方法具有完全相同的设置，只是输入大小不同（300×300和512×512）。我们的检测器实现了有希望的结果，并提供了一个很好的权衡检测精度和速度，与文献中最先进的方法相比。8278表 3 。分析构建图像金字塔时不同下采样策略的影响（左）。在这里，我们考虑双线性插值，平均池和最大池74种下采样策略。我们还分析了网络深度对浅卷积块（右）的影响。70040 80 120每秒帧数（fps）图5.PASCAL VOC上的精度与速度比较附加SSD我们的Conv 4 3C C C C Cconv 7C C C Cconv 8 2C C CConv 9 2C使用1000×600。除YOLOv2（544×544）外，所有单级检测器都使用300×300的输入图像大小。我们的检测器实现了9倍的加速比两阶段的CoupleNet。不同的下采样策略。结果表明，改变下采样策略对整体检测结果的影响可以忽略不计，尽管最大池化提供了80.0 mAP的最佳性能。浅卷积块深度：在这里，我们分析了浅卷积块的不同深度。我们考虑三种不同的策略：恒定深度、渐进增量和渐进减量。对于恒定深度，相同数量的卷积层用于浅卷积块中的不同级别。在渐进式增量中，我们逐步增加表4. PASCAL VOC 2007数据集上的消融结果，SSD模型不同阶段的卷积特征处具有多尺度轻量级特征融合。对应的较深预测层的浅卷积块的深度在渐进式递减中，我们渐进地减小用于对应的较深预测层的浅卷积块的深度。选项卡. 图3（右）显示了对浅卷积块使用不同深度策略的影响渐进式增量提供了最佳结果。LFIP对SSD预测层的影响：在这里，我们分析了LFIP表示对标准SSD的影响。我们进行了一个实验，通过系统地注入LFIP表示在不同阶段的标准，方法mAP方法mAP双线性插值79.8平均池79.9最大池化80.0渐进递减79.6恒定深度80.0递增80.2mAP VOC 2007测试2007年的测试设备为了公平比较，所有检测器都是在VOC 2007+2012 tranaval，速度在单个关于FFMCTitan X GPU。对于两级检测器，输入图像大小为地图77.279.479.980.279.980.47342方法骨干输入大小时间（ms）APAP50AP75APsAPmAPl两级检测器：更快[29]VGG-16∼1000 ×60014724.245.323.57.726.437.1[24]第二十四话ResNet-101-FPN∼1000 ×60024036.259.139.018.239.048.2R-FCN [7]ResNet-101∼1000 ×60011029.951.9-10.832.845.0可变形R-FCN [8]ResNet-101∼1000 ×60012534.555.0-14.037.750.3Mask-RCNN [15]ResNeXt-101∼1280 ×80021039.862.343.422.143.251.2Cascade R-CNN [3]ResNet-101-FPN∼1280 ×80014142.862.146.323.745.555.2单级检测器：SSD [28]VGG-16300 ×3001225.143.125.86.625.941.4DSSD [12]ResNet-101321 ×321-28.046.129.27.428.147.6Refinedet [33]VGG-16320 ×32024.829.449.231.310.032.044.4[27]第二十七话VGG-16300 ×3001530.349.331.811.831.945.9我们VGG-16300 ×3001430.048.831.710.932.846.3SSD [28]VGG-16512 ×5122828.848.530.310.931.843.5DSSD [12]ResNet-101513 ×51318233.253.335.213.035.451.1Refinedet [33]VGG-16512 ×51241.533.054.535.516.336.344.3[25]第二十五话ResNet-101-FPN∼832 ×5009034.453.136.814.738.549.1[27]第二十七话VGG-16512 ×5123334.455.736.417.637.047.6我们VGG-16512 ×5122934.655.836.818.338.247.1表5. MS COCO测试开发套件的最新技术水平比较。当使用300×300和512×512输入图像大小时，与基线SSD相比，我们的检测器在AP中的整体检测性能分别提高了4.9%和5.8%图6.我们的检测器在PASCAL VOC 2007测试集上的定性结果（对应于81.8 mAP）。该模型在VOC 2007和VOC 2012中的所有训练和验证数据集上进行了训练。每种颜色都与一个对象类别相关。dard SSD。选项卡. 图4示出了当在标准SSD的不同阶段注入LFIP表示时的检测结果当在conv4 - 3水平上积分LFIP表示时，在mAP中实现了大的增益（2.2%）。进一步提高了检测性能，最高可达conv82级.当进一步在conv9 2级别插入额外的LFIP表示时，性能略有恶化，这可能是由于conv9 2特征的低分辨率。当集成前向融合模块时，整体性能得到进一步改善从而导致80.4mAP的精度我们使用ResNet-50主干进一步验证了我们的方法对于300×300输入，我们的方法在基线SSD上实现了2.8%mAP的绝对增益。图6显示了使用我们的检测器在VOC 2007测试集上进行的示例检测。4.5. MS Coco在这里，我们评估我们的检测器在MS COCO数据集上的性能。选项卡. 5显示了我们的检测器在MSCOCO测试开发集上的性能。当使用300×300的输入图像时，我们的检测器在AP中的整体检测性能比在AP中提高了4.9%基线SSD。虽然两级检测器提供了更好的检测精度，7343但它们速度较慢，通常需要更多的时间7344图7.我们的探测器在COCO测试开发（对应于34.6 mAP）上的定性结果，特别是在具有小物体的图像图8.基线SSD（顶行）和我们的检测器（底行）在所有类别中的性能的误差分析，包括整体和小尺寸对象子集。每个子图像中的图描述了使用不同评估设置的一系列精确召回率曲线[26]，每条曲线下的面积在图例中的括号中显示。我们的检测器提供了一致的改进超过基线SSD。100ms以上的时间来处理图像。对于512×512输入，我们遵循与[27]类似的策略，对conv7特征图进行上采样，并在应用LFIP模块后与conv4 3连接。RetinaNet[25]和RFB-Net [27]的AP评分均为34。4.第一章我们的检测器（512×512输入大小）实现了34.6%的AP，同时相对比RFBNet（33 ms）更快（29 ms）。此外，我们的方法比RetinaNet提供了3倍的加速[25]。定性分析：MS COCO数据集特别适合评估小尺寸物体的性能，因为大约41%的物体是小的（面积<322）[26]。数据集可以进一步分为大的，中型和小型物体。我们使用[26]提供的误差分析来分析我们的检测器的性能。图8示出了基线SSD（顶行）和我们的检测器（底行）对于整体和小尺寸对象的误差分析图。每个子图像中的图描述了使用不同评估设置的一系列精确召回曲线，如[26]所述。我们在图例中的括号中显示每条曲线下的面积。对于基线SSD（顶行），IoU处的总体AP =。75是。295和完美的本地化可能会增加AP。566.消除背景误报将提高性能，. 789AP.在我们的检测器（底行）的情况下，在IoU=.75是。371和完美的定位很可能会增加AP。638此外，消除背景假阳性将提高性能。848AP。在分析小尺寸对象的性能时，我们的探测器所取得的改进更为突出。我们的检测器在IoU=时增加了整体AP。75从。089我的199，消除背景假阳性将提高性能。531到。704图7显示了我们的检测器在COCO test-dev上的检测5. 结论我们引入了一个轻量级的架构，以有效地构建特征化的图像金字塔。我们引入了一个浅卷积块，它将图像金字塔作为输入并产生特征金字塔。然后，在注意力模块中，将来自特征金字塔的多尺度特征与标准SSD特征相我们还引入了一个前向融合模块来整合来自前一个和当前预测层的调制在两个基准上的实验清楚地表明，我们的ap-proach在高速下提供了卓越的检测精度。国家自然科学基金项目（批准号：200000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000061632018）7345引用[1] E.阿德尔森角安德森，J。Bergen，P. Burt，and J.奥格登图像处理中的金字塔方法RCA工程师，1984年。1[2] S.贝尔角L. Zitnick，K. Bala和R.娘娘腔。内外网：用跳跃池和递归神经网络检测上下文中的对象。在CVPR，2016年。6[3] Z. Cai和N.瓦斯康塞洛斯Cascade r-cnn：深入研究高质量的对象检测。在CVPR，2018年。7[4] G. Cao，X. Xie，W. 扬角，澳-地廖氏G. Shi和J.吴固态硬盘：快速检测小物体。arXiv：1709.05054，2017年。2[5] J. Cao，Y. Pang和X.李用于联合检测和分割的三重监督解码器网络。在CVPR，2019年。1[6] Y. 陈，J.李湾，澳-地Zhou，J.Feng和S.燕. 编织多尺度上下文的单激发检测器。arXiv：1712.03149，2017年。5[7] J. 戴，Y.Li，K.He和J.太阳R-FCN：通过基于区域的全卷积网络进行对象检测在NIPS，2016年。五、六、七[8] J. Dai，H.Qi，Y.Xiong，Y.Li，G.Zhang，H.Hu和Y.伟.可变形卷积网络。InICCV，2017. 7[9] N. Dalal和B. Triggs用于人体检测的定向梯度直方图在CVPR，2005年。1[10] M. Everingham，S. M. A.埃斯拉米湖凡古尔角，澳-地K.I. 威廉斯， J. Winn 和 A. 齐瑟曼。 pascal visual objectclasses挑战：回顾展。IJCV，2015年。5[11] 费尔岑斯瓦尔布河Girshick，D. McAllester和D.拉玛南。用有区别地训练的基于部分的模型进行目标检测。TPAMI，2010年。1[12] C.傅，W. Liu，中国粘蝇A. Ranga、黑腹拟步行虫A.Tyagi 和 A. 伯格。去卷积单次检测器 . arXiv ：1701.06659，2017。二五六七[13] R.娘娘腔。快速R-CNN。在ICCV，2015年。一、二[14] R.格希克，J。多纳休，T. Darrell和J.马利克丰富的特征层次结构，用于准确的对象检测和语义分割。CVPR，2014。1[15] K.他，G.吉基奥萨里山口Dollar和R.娘娘腔。面罩R-CN

下载后可阅读完整内容，剩余1页未读，立即下载