基于特征丰富的单阶段目标检测方法及其性能评估

38 浏览量更新于2023-10-12 收藏 2.01MB PDF 举报

目标检测

多尺度特征

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9537用于目标检测的Jing Nie1段，Rao Muhammad Anwer2段，Hisham Cholakkal2段，Fahad ShahbazKhan2段， Yanwei Pang1段，Ling Shao2段1天津大学2阿联酋人工智能Inception Institute of Artificial Intelligence（IIAI）1{jingnie，pyw}@ tju.edu.cn，2{rao.anwer，hisham.cholakkal，fahad.khan，ling.shao}@inceptioniai.org摘要我们提出了一个单阶段检测框架，共同解决多尺度对象检测和类不平衡的问题。我们引入了一个简单而有效的特征丰富方案来产生多尺度的上下文特征，而不是设计更深层次的网络。我们还引入了一个级联的细化方案，该方案首先将多尺度上下文特征注入到单级检测器的预测层中，以丰富其多尺度检测的鉴别能力。其次，级联细化方案通过细化锚点和丰富的特征来改善分类和回归，从而对抗类实验在两个基准上进行：PASCAL VOC和MS可可对于MS COCO测试设备上的320×320输入，我们的检测器实现了最先进的单级检测在单尺度推理的情况下，COCO AP的准确度为33.2，而在Titan XP GPU上的操作时间为21毫秒。对于MSCOCO测试开发的512×512输入，我们的方法在COCOAP方面获得了1.6%的绝对增益，与报告的最佳单输入相比，阶段结果[5]。源代码和模型可在以下网址获得：https://github.com/Ranchentx/EFGRNet网站。1. 介绍目标检测是一个非常活跃的研究课题，有着广泛的实际应用。基于卷积神经网络（CNN）的现代目标检测方法可以分为两类：（1）两阶段方法[33，23]，和（2）单阶段方法[27，32]。两阶段方法首先生成目标方案，然后对目标方案进行分类和回归。单阶段方法通过在输入图像上规则且密集的采样网格直接定位对象一般来说，两个阶段，*同等贡献†Jing实习期间在IIAI完成的工作‡通讯作者与单级方法相比，喷射检测器具有更精确的优点。另一方面，与两阶段检测器相比，单阶段方法具有时间计算效率，但在性能上有所妥协[19]。在这项工作中，我们研究的问题，通用对象检测在一个单阶段的框架。近年来，已经引入了各种单级物体检测方法[27，32，41，24]。在现有的单级物体检测器中，单次激发多盒检测器（SSD）[27]由于其改进的检测性能和高速的组合优势而最近受到欢迎。标准SSD框架利用基础网络（例如，VGG），并在截断的基础网络的末端添加一系列卷积层。增加的卷积层和一些早期的基础网络层（分辨率不同）都被用来进行独立的预测。在标准SSD中，每个预测层都专注于预测特定尺度的对象。它采用金字塔特征层次结构，其中浅或前层针对小对象，而深或后层针对检测大对象。SSD在实现高计算效率的同时，在检测精度方面仍然落后于大多数现代两级检测器。在这项工作中，我们区分了两个关键障碍，阻碍了标准SSD探测器实现最先进的精度，同时保持其标志性的速度。首先，标准SSD难以处理大规模变化[1]。这可能是由于SSD预测层中的固定上下文信息。现有方法通过例如，添加上下文信息以及更深的主干模型[13]和特征金字塔表示[41，24，4，30]。大多数方法[41，24，4]采用自上而下的金字塔表示，其中深层的低分辨率特征图首先被上采样，然后与浅层的高分辨率特征图相结合以注入高级语义信息。虽然这样的特征金字塔表示有助于处理大规模变化，但性能仍然远远不能令人满意。第二个关键问题是前景-背景类9538SSD检测器训练期间遇到的不平衡问题。这个问题现有解决方案[24，41]包括，例如，在稀疏的硬样本集上进行训练，同时对分类良好的样本进行降权，并整合两步锚点细化策略，以通过去除负锚点来减小分类器的搜索空间。虽然取得了成功，但[41]的工作采用了自上而下的特征金字塔表示，并且仅细化锚点，因此特征与细化的锚点没有很好地对齐。在这项工作中，我们研究了一种替代的方式来共同解决多尺度对象检测和类不平衡的问题，以提高SSD的准确性，而不牺牲其特征速度。贡献：我们重新访问标准SSD框架，共同解决多尺度对象检测和类不平衡的问题。首先，我们介绍一个功能丰富-分割方案，以提高标准SSD中预测层的区分能力。而不是深化的骨干模型，我们的功能丰富计划的设计，以产生多尺度的上下文功能。我们进一步介绍了一个具有双重目标的级联加细方案。首先，它将多尺度上下文特征以自下而上的金字塔特征层次结构灌输到标准SSD预测层中由此产生的丰富的功能是更强大的规模变化。其次，它解决了类不平衡的问题，利用丰富的功能来执行类不可知的分类和边界框回归准确定位。然后，进一步利用初始箱回归和二元分类对相关的富集特征进行细化，得到最终的分类得分和边界箱回归。我们对两个chal-challening基准进行了全面的实验：PASCAL VOC 2007 [12]和MS COCO [25]。我们的检测器achieieives优越的结果com-bandry现有的单阶段方法在这两个数据集。为512×512在MS COCO测试集上，我们的检测器比具有相同主干（VGG）的Refinedet [ 41 ]性能高4。5%的COCO AP的术语，同时在Titan XP GPU上以39毫秒（ms）的推理时间运行2. 相关工作目标检测[33，27，7，28，35]是一个具有挑战性的主动计算机视觉问题。卷积神经网络（CNN）[36，18，9，38，29，37]基于对象检测近年来，Tors [14，15，32，17，33，8，27，2]显示了突出的这项工作的重点是单级对象检测器[32，27]，通常比两级对应物更快。在现有的单级方法中，SSD [27]已显示在实时操作时提供优异的性能。它使用多尺度表示，检测金字塔层次结构中的对象。在这样的层次结构中，浅层有助于预测较小的对象，而较深层有助于预测较小的对象。保护更大的物体我们的方法基于标准SSD，因为它具有卓越的精度和高速。单级检测器（例如SSD）难以准确地检测具有显著尺度变化的对象。此外，SSD检测器还存在类不平衡问题。文献[13，3，6，42]中的现有方法通过利用上下文信息、更好的特征提取或自上而下的特征金字塔表示来解决第一个问题。一种流行的策略是构建自上而下的特征金字塔表示，以将高级语义信息从较深层注入到具有有限信息的浅层[24，4]。[30]的工作提出了一种基于图像金字塔构造特征金字塔的替代方法，称为特征化图像金字塔。相比之下，我们的方法不需要任何特征化的图像金字塔或自上而下的金字塔结构，而是专注于捕捉多尺度的上下文信息。此外，我们的方法包括一个专门的模块来解决类不平衡问题。[6]的工作研究了通过多变形头整合上下文，并使用框回归（位置和尺度偏移）来细化特征。相反，我们以两种方式提高标准SSD预测层的辨别能力首先，我们介绍了一种受多分支ResNeXT架构[39，31]启发的特征丰富方案，该方案产生多尺度上下文特征，以使用上下文信息丰富标准SSD特征。其次，我们引入了一个级联的细化方案，其中盒回归和二进制分类都被用来细化功能。二进制分类（对象类别预测）用于生成突出可能的对象位置的对象图。在特征细化期间，仅位置偏移被用于将特征与细化的锚点对齐，而比例偏移被忽略。为了解决训练阶段的类别不平衡问题，RetinaNet[24]引入了焦点损失来降低简单样本的贡献。Refinedet[41]提出了一个两步锚点细化模块，通过删除几个负锚点来减少分类器的搜索空间。另外，锚点细化模块粗略地调整锚点的位置。与[41]不同，我们的级联细化方案通过首先将多尺度上下文信息灌输到标准SSD预测层中来利用丰富的特征。此外，级联细化去除了几个负锚点，不仅细化了锚点位置，还细化了特征。3. 方法我们的检测框架由三个部分组成：标准SSD层、特征富集（FE）方案和级联细化方案。我们的FE计划（第二节） 3.1 ）包含多尺度上下文特征模块（MSCF）以解决尺度变化。FE方案产生多个-9539骨干功能丰富方案多尺度上下文特征3×3 Conv卷积（b）MSCF模块级联精炼方案(a) 总体架构（c）FGRM（功能导向细化模块）图1. (a)使用VGG主干的单阶段检测方法的整体架构。它由三个部分组成：标准SSD层、特征丰富方案和级联细化方案。设计了多尺度特征提取方法使用（b）中所示的MSCF模块的上下文特征然后将这些上下文特征注入SSD预测层（conv4 3）并在级联细化方案的对象模块中使用自底向上的特征层次结构进一步传播。对象模块还执行类不可知分类（C1 x）和初始回归（B1 x）。此外，类不可知分类提供了稍后在我们的级联细化方案的FGRM模块中使用的对象映射，如（c）所示。FGRM模块生成用于预测最终分类（C2 x）和边界框回归（B2 x）的最终细化特征。缩放上下文特征以提高标准SSD预测层的区分能力。级联细化方案（sec. 3.2）利用多尺度上下文和标准SSD特征，并解决类不平衡问题。级联细化方案通过分别在两个级联模块（即对象性模块（OM）和特征引导细化模块（FGRM））中执行框回归和分类来细化锚和特征对象性模块（OM）执行对象与背景以及初始框回归。FGRM模块然后细化特征和锚点位置以预测最终的多类分类和边界框定位。图1说明了当使用VGG作为骨干网络时，我们的框架的整体架构，如[27]所示在[41]之后，我们仅使用四个预测层（conv4 3，fc7，conv8 2，conv9 2）进行检测，而不是原始SSD中使用的六个层将预测层增加到四层以上并不能提高我们的性能。3.1. 功能丰富方案在标准SSD框架中，从深度卷积网络骨干中提取特征，例如，VGG16或ResNet都是通过卷积和最大池化操作的重复过程来执行的。尽管保留了一定程度的语义信息，但它们仍然丢失了可能有助于用于从背景区域中区分对象区域。此外，每个预测层的恒定感受野在这项工作中，我们引入了一个功能丰富（FE）计划来捕获多尺度的上下文信息。我们首先使用简单的池化操作对输入图像进行下采样，以使其大小与第一个SSD预测层的大小相然后，下采样的图像通过我们的多尺度上下文特征（MSCF）模块。多尺度上下文特征模块：在图中，建议的MSCF模块用蓝色虚线框突出显示。第1段（b）分段。它是一个简单的模块，包括几个卷积运算，并产生多尺度上下文特征。真的。MSCF模块的结构受到多分支ResNeXT架构[39，31]的启发，并且是拆分、转换和聚合策略的操作。MSCF模块将下采样图像作为输入，并输出上下文增强的多尺度特征。下采样的图像首先通过两个consec，大小为3×3和1×1的卷积层，产生初始特征投影。然后，这些特征投影通过1×1卷积层被切成三个低维分支。为了捕获多尺度上下文信息，我们采用三个膨胀卷积[40]，膨胀率分别设置为1，2和4，用于不同的树枝扩张卷积操作将初始特征投影转换为上下文增强的特征投影级联精炼方案目标模块FGRM特征导向细化模块320fc7conv8_2下采样conv4_3conv9_2MSCF×D×D×D×40功能丰富方案B11C11B12C12B13C13B14C14FGRMFGRMFGRMFGRMB21 C21B22C22B24C24C23B23缩小取样的输入图像C32.3 × 3.32，r=432.3 × 3.32，r=132.3 ×3.32，r=2128，1×1，32 128，1×1，32128，1 × 1，128多尺度上下文特征（MSCF）96，1 × 1，128，1× 1，323，3 × 3，B1x丰富的功能C1x+ ×O1x精锚1×1转换核偏移B2xC2x3×3，变形转换（△x，△y）DMSCF320骨干409540文本特征集然后，这些变换后的特征通过级联操作聚合，并传递到1×1卷积操作。MSCF的输出被用于我们的级联细化方案的对象模块（OM）中。3.2. 级联精炼方案我们的改进方案由两个级联模块组成：对象模块和功能导向细化模块（FGRM），如图所示。第1（a）段。对象性模块用多尺度上下文信息丰富SSD特征，并识别可能的对象位置（对象性）。用多尺度上下文信息丰富特征提高了对小对象的性能，而在FGRM中使用对象预测来解决类不平衡问题。对象模块：对象模块首先通过在conv 4 3处从MCSF模块灌输多尺度上下文特征，通过逐元素乘法运算来丰富SSD特征。然后介绍一个自下而上的金字塔特征层次结构，将丰富的特征传播到后续的SSD预测层，如图所示。第1（a）段。对象模块使用步长为2（D）的3×3卷积运算，并将来自前一层的特征与当前层的空间分辨率和通道数相然后，通过在每个预测层处执行投影特征和SSD特征之间的最后，富集的特征用于在每个预测层x处执行二进制分类（C1x）和初始箱回归（B1x这里，x = 1、2、3和4对应于四个预测层。图2示出了来自PASCAL VOC数据集的示例图像和来自标准SSD的对应fc7特征图（第二列）、D之后的多尺度上下文特征（第三列）和富集特征（第四列）。实验结果表明，用多尺度上下文信息丰富标准SSD特征有助于更好地关注包含对象实例的区域。二进制分类C1x输出从ob-图2. PASCAL VOC数据集的示例图像和标准SSD（第二列）、多尺度上下文特征（第三列）和丰富特征（第四列）的对应fc7特征图。实例表明，作为将多尺度上下文特征灌输到标准SSD特征中的结果而获得的丰富特征有助于更好地将对象区域与背景区分开。对象/背景，其用于生成突出显示可能的对象位置的对象图O1x 我们沿着通道轴对给定空间位置的所有锚点的对象类别预测执行最大池化操作，然后进行S形激活。结果，产生空间对象图O1x，其用于通过以下步骤改进从对象模块获得的丰富特征FinFm=Fin<$01x+Fin，（1）其中<$0是逐元素乘法，Fm是en-改进后功能更加丰富内核偏移提取：对象和FGRM模块的框回归预测四个输出：别紧张，别紧张，，前两个（x，y）对应于空间偏移，后两个（w，h）对应于空间维度中的尺度偏移。在这里，我们使用来自对象模块的空间偏移量（x，y）来通过估计内核偏移量k来指导FGRM中的特征细化，在FGRM中进一步使用喷射性模块，以减少正锚和负锚之间的阶级不平衡，克洛普克=f1×1（B1（2）第一个条件：过滤掉大量的负面锚。此外，C1x输出用于生成注意力图，以引导丰富的特征在抑制背景的同时更多地关注对象框回归B1x输出也用于FGRM中，以细化特征和锚点位置。功能导向优化模块：我们的FGRM包括三个步骤：对象图生成、核心偏移提取和局部上下文信息提取（参见图11）。（c）第1段。接下来，我们将介绍这三个步骤。对象图生成：对象模块中的二元分类器（C1x）输出将每个锚点预测为ob-其中，f1×1表示卷积层，其内核大小为1×1，B1xxx，xy表示由对象模块预测的空间偏移（xx，xy）。最后，内核偏移被用作可变形卷积的输入[11]，以指导特征采样并与细化的锚点对齐。本地上下文信息：为了进一步增强给定空间位置处的上下文信息，我们在FGRM中利用了扩张卷积[40]。我们在具有步幅的SSD预测层处将膨胀率设置为5、4、3和2分别为8、16、32、64总而言之，最终的细化特征Frf，在文本X9541FGRM内的所有操作，公式如下：ΣFrf（p0）=pk R w（pk）·Fm（p0+pk·d+ npk）（3）其中p0表示最终细化特征图Frf中的每个空间位置，d是扩张率。R是一个规则的网格，用于对输入特征进行采样（即，如果核是3×3，dila-条件1，R=（−1，−1），（−1，0），.，（0，1），（1，1））。最终细化特征Frf是采样值的总和UE由W加权。kfpk是用于增强常规采样网格的内核偏移，增强CNN对几何变换建模的能力。通常，在可变形卷积中，通过在相同的输入特征图上应用卷积层来获得偏移在我们的FGRM中，偏移量由对象模块的第一个框回归生成。为了获得精确的锚点位置，我们遵循与[41]类似的策略。我们利用从对象模块预测的偏移量（B1x）来细化原始锚点位置。因此，细化的位置和细化的特征Frf用于执行多类分类（C2x）和箱回归（B2x）。4. 实验4.1. 数据集和评估指标数据集：我们在两个基准上进行实验：PASCAL VOC2007 [12]和MS COCO [25]。PAS-CAL VOC 2007数据集由20个不同的对象类别组成。我们对VOC 2007 trainval（5k图像）和VOC 2012 trainval（11k图像）的组合集进行训练，其中对VOC 2007测试集（5k图像）进行评估。MS COCO是一个更具挑战性的数据集，包含80个对象类别，分为80k训练，40k验证和20k测试开发图像。训练在trainval 35 k集上进行，评估在minival集和test-dev 2015上进行。评估指标：我们遵循最初使用两个数据集定义的标准方案进行评估。对于Pas- cal VOC，结果以平均平均精度（mAP）的形式报告，其测量在超过阈值0.5的交叉-联合（IOU）重叠处的检测准确度。MS COCO的评估指标与Pascal VOC不同，Pascal VOC的整体性能平均精度（AP）是通过对多个IOU阈值进行平均来衡量的，从0.5到0.95不等。4.2. 实现细节我们的框架采用VGG-16，在Ima-geNet [34]上预训练作为骨干架构。我们使用相同的设置进行模型初始化和优化，数据集。采用预热策略，将前5个epoch的初始学习率设置为10−6到4×10−3。然后，我们逐渐降低学习率，表1.我们的方法与PASCAL VOC 2007测试集上现有检测器的最新比较。我们的检测器在300× 300和512× 512输入。系数为10，PASCAL VOC 2007数据集分别为150和200epoch，MS COCO数据集分别为90、120和140 epoch。对于这两个数据集，权重衰减设置为0.0005，动量设置为0.9，批次大小设置为32。在我们的实验中，分别对PASCAL VOC 2007和MS COCO数据集执行了总数为250和160的 epoch除了VGG-16之外，我们还在MSCOCO数据集上使用更强的ResNet-101主干进行实验。对于ResNet-101，两个额外的卷积层（即，res6 1，res6 2）被添加到截断的ResNet-101主干的末端。我们利用四个预测层（res3，res4，res5，res6 2）进行检测。4.3. 最新技术水平比较PASCAL VOC 2007：在这里，我们进行了比较，我们的方法与国家的最先进的单和两阶段的目标检测方法在文献中。选项卡. 1显示了PASCAL VOC 2007测试集的结果。请注意，大多数现有的两阶段方法依赖于更大的输入图像大小（通常为1000× 800）来提高性能。在现有的两阶段对象检测器中，CoupleNet [45]获得了检测得分为82.7 mAP。在单阶段方法的情况下，我们用两个输入变量进行比较：300× 300和500 ×500范围。当输入图像尺寸为300 × 300时，基线SSD方法获得了77.2 mAP的检测精度。我们的探测器提供了一个重要的mAP相对于基线的绝对增益为4.1%方法骨干输入大小地图两级探测器：[18]第十八话ResNet1011000 ×60076.4R-FCN [10]ResNet1011000 ×60080.5CoupleNet[45]ResNet1011000 ×60082.7单级检测器：SSD300系列[27]VGG16300 ×30077.2RON320++[21]VGG16320 ×32076.6DSSD 321 [13]ResNet101321 ×32178.6[41]第四十一话VGG16320 ×32080.0DES300 [42]VGG16300 ×30079.7DFPR300 [20]VGG16300 ×30079.6[26]第二十六话VGG16300 ×30080.5[第30话]VGG16300 ×30080.4EFGRNet（我们的）VGG16320 ×32081.4SSD512 [27]VGG16512 ×51279.5DSSD 513 [13]ResNet101513 ×51381.5DES512 [42]VGG16512 ×51281.7[41]第四十一话VGG16512 ×51281.8DFPR512 [20]VGG16512 ×51281.1EFPNet512 [30]VGG16512 ×51281.8[26]第二十六话VGG16512 ×51282.1EFGRNet（我们的）VGG16512 ×51282.79542方法骨干输入大小时间APAP50AP75APsAPmAPl两级检测器[33]第三十三话[16]第四十五话：我的爱VGG16ResNetXt-101-FPN1000 ×6001000 ×6001280 ×800147ms121ms210ms21.934.439.842.754.862.3-三十七点二43.4-十三点四22.1-38.143.2-50.851.2单级检测器SSD [27]VGG16300 ×30020毫秒25.143.125.86.625.941.4DSSD [13]ResNet101321 ×321-28.046.129.27.428.147.6[41]第四十一话VGG16320 ×32020毫秒29.449.231.310.032.044.4DES [42]VGG16300 ×300-28.347.329.48.529.945.2[26]第二十六话VGG16300 ×30015ms30.349.331.811.831.945.9[第30话]VGG16300 ×30014ms30.048.831.710.932.846.3EFGRNet（我们的）VGG16320 ×32021毫秒33.253.435.413.437.147.9SSD [27]VGG16512 ×51245Ms28.848.530.310.931.843.5DSSD [13]ResNet101513 ×513182毫秒33.253.335.213.035.451.1[41]第四十一话VGG16512 ×51239毫秒33.054.535.516.336.344.3DES [42]VGG16512 ×512-32.853.234.613.936.047.6DRN[6]VGG16512 ×512-34.357.136.417.938.144.8[26]第二十六话VGG16512 ×51233Ms34.455.736.417.637.047.6[第30话]VGG16512 ×51229毫秒34.655.836.818.338.247.1RetinaNet [24]ResNet101-FPN500 ×83290Ms34.453.136.814.738.549.1[41]第四十一话ResNet101512 ×512-36.457.539.516.639.951.4TripleNet [4]ResNet101512 ×512-37.459.339.618.539.052.7RetinaNet+ AP-损失[5]ResNet-101-FPN512 ×51290Ms37.458.640.517.340.851.9[43]第四十三话中国人104511 ×511348毫秒40.255.543.220.443.253.1[22]第二十二话中国人104511 ×511227毫秒40.556.543.119.442.753.9EFGRNet（我们的）VGG16512 ×51238.9毫秒37.558.840.419.741.649.4EFGRNet（我们的）ResNet101512 ×51246毫秒39.058.842.317.843.654.5[41]第四十一话ResNet101512 ×512-41.862.945.725.645.154.1[22]第二十二话中国人104511 ×511-42.157.845.320.844.856.7[43]第四十三话中国人104511 ×511-43.760.547.024.146.957.6加拿大（加拿大）[44]ResNet101800 ×1333-42.863.146.527.845.553.2EFGRNet（Ours）（MS）ResNet101512 ×512-43.463.848.226.847.255.9测试：在Pytorch 041中使用单个NVIDIA Titan X PASCAL和批量1进行测试，以进行公平比较表2. MS COCO test-dev 2015的最新技术水平比较。对于300 ×300输入，我们的方法优于现有的单阶段方法，而不会显着降低速度。对于512 ×512输入，CornerNet提供最佳的整体检测精度。然而，我们的检测器比CornerNet提供了5倍的加速，同时在IoU阈值为0时的准确性更高。5. 我们也比较的多尺度推理（MS）变体我们的方法与最近的方法（数字报告从各自的论文）。固态硬盘在输入图像大小为512× 512的情况下，Refinedet [41]和RFBNet [26]在mAP方面分别实现了81.8和82.1的精度。我们的方法与相同的输入大小和主干优于RFBNet [26]，该数据集的准确度为82.7 mAP。图3显示了使用我们的检测器在PASCALVOC 2007测试集上的结果。可可小姐：2显示了最先进的比较。在320× 320的输入尺寸下，基线SSD实现了9543总体检测得分为25.1。当使用相同的脊柱时，我们的方法在总体检测评分方面获得了8.1%的显著改善，超过基线SSD。值得注意的是，在中型和小型对象上实现了11.2%和6.8%的大幅增益，超过了基线SSD。在现有的单阶段方法中，RFBNet [26]和EFIPNet [30]提供了30.3的总体检测精度输入为300× 300时，输出为30.0。我们的方法9544图3.我们的方法在VOC 2007测试集上的定性结果（对应于82.7 mAP）。每种颜色都属于一个对象类。图4.我们的检测器在MS COCO 2015 test-dev上的定性检测结果检测结果对应于37.5 AP。设置了一个新的国家的最先进的整体检测得分为33.2使用近似相似的输入规模（320× 320）和相同的骨干网络。在输入大小为512× 512和VGG主干的情况下，基线SSD的总体检测得分为28.8。我们的方法显著优于基线SSD10.80.60.40.2总的10.80.60.40.2总的在输入大小和主干相同的情况下，总体检测精度为37.5。我们的探测器提供了进一步的00 0.5 1召回00 0.5 1召回当使用更强大的ResNet-101主干时，性能有所改善，总体检测得分为 39.0 。当使用 512× 512 输入时，CornerNet [22]在AP评分的40.6。我们的方法提供了5倍的角网加速[22]，同时在IoU阈值为0时具有更高的准确性。五、ExtremeNet[43]和CornerNet [22]在更高的IoU（反映在总AP中）上都更优越，这可能是由于计算昂贵的多尺度沙漏架构。图4显示了coco test-dev上的检测结果。我们使用[25]提供的分析工具对MS COCO进行错误分析。图图5显示了Refinedet [41]（左侧）和我们的方法（右侧）的比较，所有 COCO 类别的输入为320×320Refinedet在IoU=.75时的整体性能为.309，完美的定位可能会将AP提高到.583。类似地，消除背景假阳性将增加图5.Refinedet [41]之间的误差分析（左侧）和我们的探测器（在右边），用于所有80个COCO对象类别。为了公平比较，两种方法使用相同的主干（VGG）和输入大小（320× 320）在这里，每个子图像中的图呈现了一系列的精度召回曲线这些曲线使用不同的设置计算[25]。此外，AUC曲线见图例。结果是.841 AP。在IoU= 0.75时，我们的检测器的整体性能为同样，消除背景误报将使性能提高到.846 AP。我们的方法显示出优于Refinedet的性能4.4. 基线比较我们首先评估我们的功能丰富的影响（第二节）。3.1）和级联细化（sec.3.2）方案[.309] C75[.496] C50[.583]禄[.606]西姆[.636] Oth[.841] BG[1.00] FN[.349] C75[.529] C50[.611] Loc[.633]西姆[.662] Oth[.846] BG[1.00] FN精度精度9545方法VOC 2007MS Coco地图AP APs APm APl基线SSD77.224.4 6.827.5 40.9SSD + FE方案3.179.429.1 9.434.1 45.3SSD +级联细化3.281.031.1 13.0 34.5 47.4EFGRNet（我们的）81.433.0 14.5 37.4 49.5方法R1=1R2 =2R3 =4地图基线SSD77.2（一）✓78.7（b）第（1）款✓✓79.0表3.在PASCAL VOC 2007和MS COCO minival set数据集上将我们提出的特征丰富和级联细化方案集成到基线SSD框架中的比较。对于所有实验，骨架是VGG16，输入为320× 320。我们的最终方法在两个数据集上都提供了比基线SSD更大的性能增益将它们集成到基线SSD中。选项卡. 3显示了PASCALVOC 2007和MS COCO数据集的为了公平比较，我们对所有实验都使用相同的设置。在PASCAL VOC 2007数据集上，基线SSD达到77.2 mAP。特征富集方案的引入导致mAP比基线SSD提高2.2%请注意，特征丰富方案通过对象模块集成到基线SSD中检测性能从77.2至81.0 mAP的级联细化方案的集成为了公平地评估我们的级联细化，我们排除了对象模块的特征丰富和自底向上的特征层次结构。功能丰富和级联细化方案都提供了4.2%的mAP比基线SSD的在MS COCO数据集上，基线SSD获得的总体准确度为24.4 AP。我们的特征丰富方案的引入显着提高了AP的整体性能从24.4到29.1。一个显着的增益，准确度实现了中等大小的对象。整合我们的级联细化方案，提高了整体准确性的基线SSD从24.4到31.1在AP。一个显着的性能增益上实现了小尺寸的对象。我们的最终框架结合了功能丰富和cas-caded细化方案，提供了33.0 AP比基线SSD高8.6%。PASCAL VOC 2007的消融研究：我们尝试了三种不同的设计MSCF模块在我们的功能丰富计划。选项卡. 图4示出了当使用具有不同扩张率的三个不同分支时的结果（即，1、2、4）。的当在我们的MSCF中使用三个分支时获得79.4mAP的最佳结果，这突出了捕获多尺度上下文信息的重要性。我们进一步研究了添加具有不同扩张率的额外分支。但是，这并不会带来任何性能改进。接下来，我们分析了在我们的级联细化方案中的特征引导细化模块（FGRM）中的核偏移的效果选项卡. 图5示出了当在我们的FGRM的可变形卷积算子中使用不同类型的偏移生成我们还报道了标准的扩张卷积结果（80.2mAP）.在表4.关于MSCF模块设计的烧蚀实验在Pascal VOC 2007测试集上的功能丰富方案中使用。实验结果表明，利用多尺度上下文信息提高了检测性能。卷积型偏移生成mAP扩张卷积-80.2变形卷积如[11] 80.5中所B1x（10x，10y，10h，10w）80.7B1x（10h，10w）80.3B1x（x，y）81.0表5.在PASCAL VOC 2007上使用我们的FGRM的变形卷积算子中使用不同类型的偏移生成时的在[11]中生成的偏移仅比扩张卷积的性能略有改善。来自对象模块B1 x的初始框回归预测位置和尺度偏移（B1 x，B1 y，B1 h，B1 w）。当使用位置偏移量（x，y）来生成用于可变形卷积的偏移量时，获得最佳结果。在标准可变形卷积（第二行）的情况下，卷积层用于学习偏移[11]。一种简单的方法是通过直接将其应用于标准特征Fm来学习偏移。这表明与标准扩张卷积相比，性能略有改善。来自对象模块B1x的初始框回归预测位置和尺度偏移（B1x，B1y，B1h，B1w）它可以用来通过一个1×1的控制来学习偏移量进化仅使用比例偏移（h，w）-评价性能。当使用位置偏移量（Δx，Δy）来生成用于变形卷积的偏移量时，获得了81.0 mAP的最佳结果。在整个实验中，我们使用与sec相同的膨胀率。3.2.5. 结论我们提出了一个单阶段的方法，共同解决多尺度检测和类不平衡的问题。我们引入了一个特征丰富方案来产生多尺度的上下文特征。此外，我们提出了一个级联的细化方案，首先灌输这些上下文功能到SSD功能。其次，它利用丰富的功能来执行类不可知的分类和边界框回归。然后，利用初始框回归和二进制分类来细化特征，然后使用这些特征来获得最终的分类得分和边界框回归。两个数据集上的实验表明，我们的方法优于现有的单阶段方法。致谢：该工作得到了国家自然科学基金（ Grant#61632018）的支持。9546引用[1] Yancheng Bai ， Yongqiang Zhang ， Mingli Ding ， andBernard Ghanem.Sod-mtgan：通过多任务生成对抗网络进行小目标检测。在Proc.欧洲计算机视觉会议，2018年。1[2] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：深入研究高质量的对象检测。在proc IEEE计算机视觉与模式识别会议，2018年。2[3] 曹桂梅，谢雪梅，杨文哲，廖泉，石光明，吴金建.固态硬盘：快速检测小物体。 arXiv 预印本 arXiv ：1709.05054，2017。2[4] 曹佳乐，庞彦伟，李雪龙。用于联合检测和分割的三重监督解码器网络在Proc. IEEE计算机视觉和模式识别会议，2019年6月。一、二、六[5] Kean Chen ， Jianguo Li ， Weiyao Lin ， John See ， JiWang，Lingyu Duan，Zhibo Chen，Changwei He，andJunni Zou.利用ap损失实现精确的一阶段目标检测。在Proc. IEEE计算机视觉和模式识别会议，2019年6月。1、6[6] Xingyu Chen ， Junzhi Yu ， Shihan Kong ， ZhengxingWu，and Li Wen.双细化网络，用于在真实场景中准确快速地检测目标。arXiv预印本arXiv：1807.08638，2018。二、六[7] Hisham Cholakkal，Jubin Johnson和Deepu Rajan。弱监督自上而下显著性的回溯 scspm 图像分类器。在Proc.IEEE计算机视觉和模式识别会议上，2016年6月。2[8] Hisham Cholakkal，Jubin Johnson和Deepu Rajan。弱监督自上而下显著目标检测的回溯空间金字塔池图像分类器。 IEEE Transactions on Image Processing ， 27（12）：60642[9] Hisham Cholakkal、Guolei Sun、Fahad Shahbaz Khan和Ling Shao。具有图像级监控的对象计数和实例分割。在proc IEEE计算机视觉和模式识别会议，2019年6月。2[10] 戴纪峰，易力，何开明，孙建。R-fcn：通过基于区域的全卷积网络的目标检测。神经信息处理系统进展，2016年。5[11] Jifeng Dai，Haozhi

下载后可阅读完整内容，剩余1页未读，立即下载