单阶段目标检测网络的优化方法

61 浏览量更新于2023-10-13 收藏 1.94MB PDF 举报

天津大学

RetinaNet

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1971高速学习丰富特征用于单次目标检测Tiancai Wang1岁，†Rao Muhammad Anwer2岁，Hisham Cholakkal2岁，FahadShahbaz Khan2岁， Yanwei Pang1岁，Ling Shao2岁1天津大学2阿联酋人工智能Inception Institute of Artificial Intelligence（IIAI）1{wangtc，pyw}@ tju.edu.cn，2{rao.anwer，hisham.cholakkal，fahad.khan，ling.shao}@inceptioniai.orga：RetinaNet（ResNet-101-FPN）[18] b：我们的方法（VGG-16）图1：来自UAVDT数据集[9]的示例图像的定性检测结果（a）RetinaNet [18]，使用强大的我们的检测器准确地检测所有61辆汽车（汽车，公共汽车和卡车）实例，包括45辆小型车辆（根据MS COCO标准定义[19]），同时在单个Titan X GPU上以91帧每秒（FPS）运行。更多示例参见图5摘要单级目标检测方法由于其特有的实时性和较高的检测精度而受到一般来说，大多数现有的单阶段检测器遵循两种常见的做法：它们采用在ImageNet上预先训练的网络骨干进行分类任务，并使用自上而下的特征金字塔表示来处理尺度变化。与常见的预训练策略相反，最近的工作已经证明了从头开始训练的好处，以减少分类和定位之间的任务差距，特别是在高重叠阈值。然而，从头开始训练的检测模型与典型的基于微调的检测模型相比，需要更长的训练时间。我们引入了一个单阶段检测框架，它结合了微调预训练模型和从头开始训练的优点。我们的框架构成了一个标准的网络，使用预先训练的骨干和并行的轻量级辅助*同等贡献†天才实习期间在IIAI完成的工作‡通讯作者网络训练从零开始此外，我们认为，通常使用的自顶向下的金字塔表示只关注传递高层语义从顶层到底层。我们引入了一个双向网络，有效地循环低/中级和高级别的se-mantic信息的检测框架。在MS COCO和UAVDT数据集上进行了实验。与基线相比，我们的检测器在平均精度上获得了7.4%和4.2%的绝对增益(AP)在MS COCO和UAVDT数据集上，分别使用VGG主干。对于MS COCO测试集上的300× 300输入，我们的ResNet主干检测器优于现有的单级检测方法，单尺度推断达到34.3 AP，同时在推断时间内操作19 毫秒的速度。代码可在 www.example.com 获得https://github.com/vaesl/LRF-Net。1. 介绍近年来，由于深度学习的进步，特别是卷积神经网络（CNN）的进步，检测性能得到了显着改善[34，23，25，22，6]。现代探测器可以分为两种类型-（一）单阶段方法[21，26，27，28，3，4]和1972(ii)两阶段方法[29，17，14，11，31]。一般来说，两阶段方法的精度占主导地位，而单阶段方法的主要优势是其高速[15]。最近的单级检测器[18，36]旨在匹配更复杂的两级检测方法的检测精度。尽管在大型和中型物体上显示出令人印象深刻的结果，但这些探测器的性能低于-对小物体的预期性能[1]。例如，当使用500×500输入时，最先进的单级RetinaNet [18]在大尺寸对象上获得了令人印象深刻的结果，COCO AP为47，但在小尺寸对象上仅实现了COCO AP为14（如[19]中所定义）。小ob-对象检测是一个具有挑战性的问题，并且需要用于精确对象描绘的低级/中级信息和用于将目标对象与背景或其它对象类别区分开的高级语义。现有技术的单级方法[18，36，4]通常采用更深的网络骨干（例如，VGG或ResNet），它在ImageNet数据集[30]上预先训练用于分类任务。然后，这些检测框架对目标对象检测数据集上的预训练网络骨干进行然而，在基于分类的预训练模型和目标定位目标之间仍然存在任务差距，影响高框重叠阈值下的性能[12]。最近的工作[12，38]表明，从头开始训练检测模型可以解决这个问题，从而实现准确的局部化。虽然很有前途，但从头开始训练非常深的网络需要比典型的基于微调的网络更长的训练时间在这项工作中，我们结合了预训练和从头开始学习的优点，引入了一个检测框架，该框架构成了一个标准网络，使用预训练的骨干和从头开始训练的浅层辅助网络。辅助网络为标准预训练网络提供补充的低/中级信息，并且对于小型和中型对象特别有用。如前所述，当检测不同尺度的对象，特别是小对象时，需要低/中级别信息和高级别语义现代目标检测器通常使用自上而下的金字塔特征表示[17，18]，其中来自顶层或后面层的高级信息虽然，这种自顶向下的特征金字塔表示导致改进的性能，但是它仅将高级语义注入到先前的层。此外，这种金字塔表示[17]是通过以逐层方式融合许多层来构建的。在这项工作中，我们认为，高层次的信息，形成前层和低/中层次的信息，后来的层的融合是至关重要的多尺度目标检测。贡献：我们提出了一个单级检测方法，具有以下贡献。首先介绍363432302850 100 150 200 250推断时间（ms）图2：准确度（AP）与速度（ms）与MS COCO测试开发的现有单级方法的比较。我们报告的整体精度（AP）和性能的小对象（AP）。我们的两种变体（红色和蓝色三色-角度）具有所有相同的设置，除了不同的输入大小（300×300和512×512）。在这里，现有的检测器使用的输入图像大小为512×512，YOLOv3（608×608）除外。与我们的方法类似，这里的大多数方法[21，36，20，24]采用VGG骨架。公平相比之下，速度是在单个Titan X GPU上测量的前两个结果分别用红色和蓝色标记一个轻量级的擦除网络（LSN），从头开始训练，将下采样的图像作为输入，并将其通过几个卷积层，以有效地构建低/中级特征。然后，这些低级/中级特征被注入到具有预训练骨干的标准检测网络中。此外，我们引入了一个双向网络，在检测网络中循环低/中级和高级语义信息。实验在两个数据集上进行：MS COCO和无人机（UAVDT）。在这两个数据集上，与现有的单阶段检测方法相比，我们的方法实现了卓越的性能，没有任何花里胡哨的东西。此外，我们的检测器显着提高了小物体的基线[21]，绝对增益为在MS COCO数据集上的COCO风格AP方面为8.1%。对于512×512输入，我们的检测器实现了36.2的COCO风格AP，推理时间为26毫秒（ms），优于现有的单级方法，使用MS COCO上的类似主干（VGG）（见图2）。2）的情况。2. 基线快速检测框架在这项工作中，我们采用流行的SSD框架[21]作为我们的基线，因为它具有高速和检测精度的综合优势标准SSD采用VGG-COCO AP方法时间APAPsSSD [21]2828.810.9[28]第二十八话5130.018.3DSSD [10]15633.213.0Refinedet [36]4233.016.3[18]第十八话7332.513.9[18]第十八话9034.414.7[20]第二十话3033.816.2[20]第二十话3334.417.6[第24话]2934.618.3我们的-3001332.012.6我们的-5122636.219.019731x1，CN-BN-3x3，CN-BN-RL输入图像轻量级划痕网络划痕特征后层特征DS381x1，CN-BN1x1，CN-BN 1x1，CN-BN⊗1x1，CN-BNUPUP向上爬C4Fc73819BB105前层特征骨干特征(b) 自下而上方案B1x 1，CN-BN-RL1x1，CN-BN-RL1x1，CN-BN-RL当前图层要素(c) 自顶向下方案TTTC8C9双向网络B1x1，CN-BN-RLTBTCN：卷积BN：批次标准RL：ReLuUP：上采样CAT：串联步幅为1步幅2(a) 我们提出的检测器图3：（a）所提出的单阶段对象检测方法的总体架构。我们的方法包括三个部分：标准SSD网络、轻量级临时网络（LSN）和双向网络。在我们的LSN中，首先对输入图像进行下采样，然后通过轻量级串行操作（LSO）来生成LSN特征。我们的双向网络由自下而上（b）和自上而下（c）方案组成，以在网络中循环低/中级16架构作为骨干网络，其中不同分辨率的层用于执行独立预测。SSD从conv4 3层开始，进一步包括来自原始VGG-16网络的FC7（转换为conv层）层，同时截断网络的最后一然后，它添加几个逐渐变小的conv层，即conv8 2，conv9 2，conv10 2和conv11 2在最后用于预测。标准SSD采用与先前层（例如，Conv4 3）被指定用于小对象检测，而后面或深层（例如，CONV92）被分配了本地化大对象实例的任务。因此，金字塔层次结构确保来自不同SSD层的多尺度特征被用于预测类分数和边界框。最后，在推理过程中使用基于NMS的后处理策略来获得最终预测。局限性：如上所述，标准SSD采用金字塔形特征层次结构，其中独立的预处理在不同分辨率的层上执行指令。然而，这样的金字塔表示与大尺度变化斗争，特别是检测小尺寸的物体。这可能是由于在前层中有限的语义信息（例如，conv43）的SSD，与后面的层[15]相比。此外，在标准SSD中的金字塔特征高层次地从网络的高层开始，例如，在VGG-16的情况下，conv4 3层。以前的工作已经解决了浅和高的重要性用于检测小对象的层次语义信息[17]。这个问题最常见的解决方案包括，大规模上下文[10]，通过加深模型[10，18]，特征化图像金字塔[24]和自顶向下的特征金字塔表示来更好地提取特征，以将高级语义注入到前一层[18，35，37]。特征化图像金字塔策略[24]不向前一层提供高级语义，而自顶向下金字塔方案不向网络的后一层明确分发低/中级补充信息此外，涉及深化模型和大规模上下文的解决方案以计算速度为代价提高了性能。3. 我们的方法在本节中，我们首先介绍我们的整体检测体系结构，并介绍我们的轻量级划痕网络（LSN）（第2节）。3.1）在标准SSD预测层中整合补充信息然后，我们描述我们的双向网络（sec. 3.2）设计用于在检测网络内循环低级/中级和高级语义信息。整体架构：图3（a）示出了由三个主要部件组成的总体架构：标准SSD网络、轻量级临时网络（LSN）和双向网络。如前所述，标准SSD采用预先训练的网络骨干。因此，我们将来自标准SSD层的特征（conv43，猫猫3x3，CN-BN检测预测层3x3，CN-BN-RL1x1，CN-BN-RL…3x3，CN-BN-RL3x3，CN-BN-RL3x3，CN-BN-RL3x3，CN-BN-RL1x1，CN-BN-RL3x3，CN-BN-RL1974FC7、conv8 2、conv9 2、conv10 2和conv11 2）作为SDS：小的下采样步幅LDS：大的下采样步幅骨干特征，因为它们来自预先训练网络主干。与[21]类似，我们采用VGG-16作为骨干网络。轻质防刮网-转换块SDS工作（LSN）产生一个低/中级特征表示，然后将其注入主干功能(a) 主干特征提取随后的标准预测层以提高它们的性能。然后，从当前层和前一层得到的特征以自下而上的方式组合在我们的双向网络中。我们的双向网络中的自顶向下方案包含独立的并行LDS(b) LSN特征提取LSOLSN功能连接，以将高级语义信息从网络的后面的层注入到前面的层。我们的双向网络与在几个现有的单级检测器[18，36]中使用的特征金字塔网络（FPN）[17]相比具有以下首先，FPN的自底向上部分遵循CNN的金字塔特征层次结构，其也用于标准SSD框架中。FPN和SSD的自底向上部分都遵循骨干网络的前馈计算，建立一个特征层次。除了FPN/标准SSD中的自下而上部分之外，我们的双向网络中的自下而上方案以级联方式将特征从前一层传播到后一层。此外，FPN中的自顶向下金字塔通过级联操作执行许多CNN层的逐层融合。而不是级联/顺序逐层融合，预测层通过独立的并行连接融合在我们的双向网络的自顶向下方案。3.1. 轻量级划痕网络我们的轻量级刮擦网络（LSN）简单，与标准SSD预测层紧密相连，用于构造低/中级特征表示，称为LSN特征。我们提出的特征提取策略，在我们的LSN随后的LSN架构的描述。LSN特征提取：在现有检测框架中通常采用的特征提取策略涉及从网络骨干（例如VGG-16）中提取特征，在多个卷积块和最大池化层的重复堆栈中，以产生语义上强的特征（见图2）。（见第4（a）段）。这样的特征提取策略对于倾向于平移不变性的图像分类任务是有益的与图像分类不同，对象检测还需要精确的对象分层，对于该对象分层，局部低/中级特征（例如，信息也是重要的[38]。为了补偿来自预训练网络的骨干特征中的信息损失，在我们的LSN中使用了另一种特征提取方案，如图所示。第4（b）段。首先，通过池化操作将输入图像下采样到第一SSD预测层的目标大小。所得到的下采样图4：（a）标准SSD特征提取采用sev-每个卷积块与小的下采样步幅一起。(b)在我们的LSN中，输入图像首先下采样到目标大小，然后进行轻量级串行操作（LSO）以产生LSN特征。然后，图像通过轻量级串行操作（LSO），包括卷积，批量范数和ReLU层。请注意，我们的LSN是用随机初始化从头开始训练的。它遵循与标准SSD中类似的金字塔形特征层次结构，其构造为Sp={s1 ， s2 ， . . .， sn}（1）其中，n是被选择以匹配标准SSD预测层的大小的特征金字塔级别的数量。我们通过将输入图像I下采样到第一SSD预测层的目标大小开始（在我们的情况下采样率为8）。然后，我们使用得到的下采样图像It来生成初始的LSN特征sint（0）：sint（0）=tint（0）（It）（2）其中，Rint（0）表示串行操作，包括一个3×3和一个1×1 conv。块然后使用初始要素s int（0）生成中间要素setsint.第k个中间特征通过使用第（k-1）个中间功能：sint（k）=sint（k）（sint（k−1））（3）其中k=（1，. . .，n）和k int（k）（. ）表示一个3×3卷积。块当k=1时，第（k-1）个中间特征等于初始LSN特征。接下来，我们应用1×1 conv。块到第k级中间特征以生成Sp的第k级LSN特征，sk=transs（k）（sint（k））（4）其中，n = transs（k）。）表示1×1 conv。转换LSN功能通道以匹配相应标准SSD功能的块。转换块SDS19753.2. 双向网络双向网络在检测网络中循环低/中级别和高级别语义信息，并由自底向上和自顶向下方案组成。自下而上的方案（见图）。3（b））组合骨干和LSN特征，并以前馈级联方式传播不同级别的所得特征，从而产生前向特征。我们把这个任务称为自底向上的特征传播（BFP）.第k级前向特征通过执行以下两项任务来获得：fk=φk （（ sk<$ok ） <$ （ wk−1fk−1 ）（5）其中sk是来自LSN的第k个第k个原始SSD预测骨干功能，wk−1表示3×3conv。对于步长为2的块（没有ReLU），f k−1是第（k −1）层的前向特征，φ k（. ）表示串行操作，包括ReLU和3×3 conv。块和和加法。注意，BFP从第二预测层开始。因此，第一预测层的前向特征f1实际上是LSN和骨干特征的融合，表示为：f1=φ1（s1<$o1）（6）最后，将自底向上方案中各个层次的前向特征表示为前向特征金字塔：Fp={f1 ， f2 ， . . .， fn}（7）如上所述，自底向上方案在正向方向上循环低级/中级特征。为了进一步将高级语义信息从后层注入到前层，我们引入了一个自顶向下的方案（见图11）。3（c））。该方案将后面层的所有特征连接到当前层。它通过网络中独立的并行连接来循环高级语义。生成后向特征金字塔Bp用于预测，Bp={b1 ，b2 ， ...， bn}（8）我们首先使用几个1×1转换器。块，以减少Fp中所有前向特征的特征通道。对于第k层，其中k =（1，. . . ，n-1），则将具有减少的通道的特征与所有更高级别的特征合并，以获得保留用于最终预测的后向特征bk所有高层的特征µ k是上采样操作。 γk（. ）是一个3×3的co nv。块来mer- ge所有的forr-ward功能。是串联操作。注意第n层前向特征是最高层语义特征，并且不需要来自先前层的任何语义信息这意味着该第n层的前向特征被直接用作预测特征。4. 实验4.1. 数据集MS COCO [19]：包含80个对象类别。它总共包含16万张图像，其中包括8万张训练图像、4万张验证图像和4万张测试开发图像。训练是在来自训练集的120k图像上执行的，评估是在测试开发图像上完成的在这里，性能是通过遵循标准MS COCO协议来评估的，其中平均精度（AP）是通过对范围从0.5到0.95的多个IOU阈值进行平均来测量的UAVDT数据集[9]：是最近引入的用于对象检测的大规模基准。本基准中感兴趣的对象是车辆。车辆类别包括小汽车、卡车和公共汽车。该数据集包含从100个视频序列中选择的80k注释帧。视频被分为训练集和测试集，分别具有30和70个序列。我们遵循各自作者提供的相同评价方案[9]。4.2. 实现细节我们采用VGG-16 [32]，在ImageNet [30]上预先训练，作为所有基线和UAVDT实验的骨干架构除了VGG，我们还报告了MS COCO数据集上ResNet-101骨架的结果。请注意，我们的方法不需要对底层架构进行任何重大的重新设计当从VGG到ResNet主干网时，只有通道的数量发生了变化。对于这两个数据集，我们在前六个时期采用了初始学习速率为设定为2×10−3，然后逐渐降低到2×10−4，90和120个历元时分别为2×10−5我们采用标准SSD方法中的默认设置[21]，损失函数、默认框的比例和长宽比以及数据扩充。在我们的实验中，权重decay设置为0.0005，动量设置为0.9。对于这两个数据集，批大小为32。对两个数据集执行总共1604.3. MS COCO数据集01-02 Σ（2）A，B，C， D，Σnk+1（9）最先进的对比：我们首先执行我们的方法与文献中最先进的对象检测方法的比较。选项卡. 1显示了MS其中W i，i =（k，. . . ，n）是1×1卷积。块以减少特征通道。W是一个1×1的卷积。块合并COCO测试开发集。对于300×300输入，基线SSD方法获得的检测AP评分为25.3。对大型1976方法骨干输入大小时间（ms）APAP50AP75APsAPmAPl两级检测器：[29]第二十九话VGG-16∼1000 ×60014724.245.323.57.726.437.1[17]第十七话ResNet-101-FPN∼1000 ×60024036.259.139.018.239.048.2R-FCN [7]ResNet-101∼1000 ×60011029.951.9-10.832.845.0可变形R-FCN [8]ResNet-101∼1000 ×60012534.555.0-14.037.750.3[13]第十三话ResNeXt-101∼1280 ×80021039.862.343.422.143.251.2Cascade R-CNN [2]ResNet-101-FPN∼1280 ×80014142.862.146.323.745.555.2SNIP [33]DPN-98--45.767.351.129.348.857.1单级检测器：SSD [21]VGG-16300 ×3001225.342.026.56.228.043.3SSD [10]ResNet-101321 ×3212028.045.429.36.228.349.3DSSD [10]ResNet-101321 ×321-28.046.129.27.428.147.6Refinedet [36]VGG-16320 ×3202629.449.231.310.032.044.4Refinedet [36]ResNet-101320 ×320-32.051.434.210.534.750.4[20]第二十话VGG-16300 ×3001530.349.331.811.831.945.9[第24话]VGG-16300 ×3001430.048.831.710.932.846.3我们VGG-16300 ×3001332.051.533.812.634.947.0我们ResNet-101300 ×3001934.354.136.613.238.250.7[27]第二十七话暗网544 ×5442521.644.019.25.022.435.5[28]第二十八话暗网-53608 ×6085133.057.934.418.335.441.9SSD [21]VGG-16512 ×5122828.848.530.310.931.843.5SSD [10]ResNet-101513 ×5133231.250.433.310.234.549.8DSSD [10]ResNet-101513 ×51315633.253.335.213.035.451.1Refinedet [36]VGG-16512 ×5124533.054.535.516.336.344.3Refinedet [36]ResNet-101512 ×512-36.457.539.516.639.951.4[35]第三十五话VGG-16512 ×512-31.252.932.415.532.943.9[20]第二十话VGG-16512 ×5123033.854.235.916.237.147.4[20]第二十话VGG-16512 ×5123334.455.736.417.637.047.6RetinaNet [18]ResNet-101-FPN∼832 ×5009034.455.736.814.737.147.4[第24话]VGG-16512 ×5122934.655.836.818.338.247.1RetinaNet+ AP-损失[5]ResNet-101-FPN∼832 ×5009137.458.640.517.340.851.9我们VGG-16512 ×5122636.256.638.719.039.948.8我们ResNet-101512 ×5123237.358.539.719.742.850.1表1：我们的检测器与MS COCO测试开发集上最先进方法的比较（AP方面我们的方法在300×300和512×512输入下都取得了令人印象深刻的性能当使用300×300输入时，我们的ResNet-101主干检测器在总体准确性方面超过了现有的单阶段方法，同时在19毫秒（ms）的我们的检测器在小型和中型物体上的性能也优于现有的单阶段方法对象（AP1），基线SSD提供了43.3 AP的良好性能。然而，它的性能显着恶化到6.2 AP上的小对象（AP）。我们的方法，使用相同的VGG骨干，提供了一个显着的整体增益为6.7%的检测AP超过基线SSD。重要的是，我们的检测器实现了两倍以上的检测性能的小对象，相比SSD框架。类似地，在中等物体（APm）上也获得了检测性能的大的改进。在现有方法中，具有VGG主干的Refinedet [36]和RFB-Net [20]分别实现了29.4和30.3的 AP得分与这两种方法相比，我们具有相同骨架的检测器实现了更好的结果。对于512×512输入，基线SSD的检测AP评分为28.8。我们的探测器有相同的VGG-骨在AP中提供了7.4%的显著总体增益，超过基线SSD 。在现有的方法中， RetinaNet [18] 和RetinaNet+AP-Loss [5]提供了34.4分别为37.4。然而，这两种方法都比较慢，推理时间为1.90毫秒。我们的方法使用相同的ResNet-101主干（不含FPN）实现了相当的性能，检测AP得分为37.3，同时操作的推理时间明显更快，为32在单个Titan X GPU上的时间为毫秒（ms）。虽然两阶段方法实现了优越的精度，但它们在计算上是昂贵的，通常需要大的输入分辨率，并且大多需要超过100ms来处理图像。例如，Cascade R-CNN [2]实现了42.8 AP，但需要141 ms来处理图像。我们的检测器提供了有前途的准确性与高时间效率。1977a：COCO探测结果b：无人机探测结果图5：我们的方法在（a）COCO测试开发（对应于36.2 AP）和（b）UAVDT测试集（对应于37.8 AP）上的定性检测结果大多数例子描述了小物体的性能在UAVDT数据集图像中忽略黑色区域[9]。我们的探测器能够在这些具有挑战性的场景中准确定位小物体。图6：基线SSD（顶行）和我们的检测器（底行）之间的误差分析比较。比较显示为整体和小尺寸的对象。每个子图像包含描述使用不同评估设置计算的一系列精确召回曲线的图[19]。此外，每条曲线下的面积在图例中呈现我们的方法显着提高了检测性能的基线SSD框架。定性分析：MS COCO数据集中大量的小尺寸物体（占所有物体的41%）使其特别适合评估小物体检测的性能。如果面积为322 ，则对象实例在这里被认为是小的。<我们通过采用[19]提供的误差分析协议对我们的检测器进行进一步分析。基线SSD的误差分析图（顶部行）和我们的方法（底部）与VGG骨干的整体和小对象如图所示。六、如[19]所定义的，每个子图像中的图描绘了一系列采用不同设置的精确召回曲线。每条曲线下的面积显示在图例中（括号内）。在基线SSD（顶行）的情况下，IoU= 0时的总体AP。50是0。482，并且去除背景假阳性将导致将性能提高到0。789AP.对于我们的方法（底行），IoU= 0时的总体AP。50是0。560，并且去除背景假阳性将使性能提高到0。847AP。在小尺寸对象的情况下，与SSD相比，我们的方法在性能上提供了更显着的例如，结果从0显著改善。231由SSD获得，0的情况。在IoU= 0时为357。50、我们的方法此外，图。图5（a）示出了使用我们的方法的检测示例。消融术研究：我们在MS COCO-minival上进行了消融研究，并报告了使用300×300输入和VGG主干的结果。我们首先验证我们的拟议组成部分：轻量级临时网络（LSN）（第二节）3.1）和双向网络（第二节）。3.2）。请注意，我们的双向网络由自下而上和自上而下的方案组成，以在检测网络中循环低/中级和高级语义信息。选项卡. 图2显示了我们的LSN和双向网络的影响。标准SSD提供的检测AP评分为25.3. 整合我们的LSN显着提高检测性能与AP得分为28.9。值得注意的是，与小尺寸物体（AP）的基线SSD相比，获得了4.4%的显著增益。性能的大幅提高，特别是对于小型（APs）和中型（APm）观测器，显示了我们的LSN对补偿1978SSDLSN双向aCLAP25.3AP5042.0AP7526.5APs6.2APm28.0APl43.3C C28.947.830.210.632.144.8C CC31.951.433.613.436.347.6表2：在MS COCO minival数据集上的标准SSD中集成我们的不同组件（轻量级暂存网络（LSN）和双向我们的最终检测框架提高了性能，比标准SSD的总体增益为6.6%。自下而上计划自顶向下方案AP时间（ms）级联级联31.012密集密集31.316密集级联29.615级联密集31.913表3：构建双向网络时不同设计选择的影响在我们的双向网络中，当使用级联连接用于自底向上方案和密集连接用于自顶向下方案时，我们在速度和精度方面获得了最佳性能。标准SSD主干功能中的信息丢失。此外，集成我们的双向网络将整体性能从28.9提高到31.9。在我们的双向网络中，自下而上和自上而下的方案分别提供了1%和2%的改进。我们还进行了一个实验，通过整合我们的LSN功能在不同阶段的SSD骨干。当在conv4 - 3水平注入LSN特征时，获得了2.2%的大增益。重要的是，一个大的改善3.8%，获得了小尺寸的对象（AP）demonstrating-补偿标准骨干功能中的信息丢失的重要性。此外，我们观察到一个逐渐增加的性能时，注入LSN功能，到更高的层。我们还进行了一个实验，重新使用的conv1层的骨干在标准的SSD，而不是我们的LSN，以产生互补的功能。然而，与我们的LSN（28.9 AP）相比，浅骨干特征的重用实现了较差的结果（26.8 AP），突出了使用从头开始专门训练的特征的重要性最后，我们比较了双向网络中的自将FPN的自上而下方案整合到标准SSD（SSD-FPN）中提供了27.3的AP评分与SSD-FPN相比，在标准SSD中集成我们的自上而下方案时，AP评分为29.3，获得了2%的额外绝对增益选项卡. 图3显示了在我们的双向网络建设过程中考虑的不同设计选择的分析。我们报告了将双向网络集成到标准SSD（无LSN）时的整体检测性能和推理时间。当使用级联连接的自底向上和自顶向下的计划，我们获得了最佳的速度，但在精度降低另一方面，使用密集表4：我们的检测器的速度和性能比较，与几个现有的单级和两级方法的无人驾驶飞机测试集。为了公平比较，所有方法的速度都是在单个 Titan X GPU（Maxwell架构）上测量的。最好的两个结果以红色和蓝色显示，请参阅。我们的方法将AP的准确性提高了3.5%，同时提供了近20倍的R-FCN加速用于自底向上和自顶向下方案的连接增加了计算开销。在速度和精度方面的最佳性能时，使用级联连接的自底向上的计划和密集连接的自顶向下的计划。因此，我们选择这种设计选择来构建我们的双向网络。4.4.无人机数据集最后，我们在无人机（UAVDT）数据集上验证了我们的检测器[9]。无人驾驶飞机数据集是非常具有挑战性的，高密度、小对象和相机运动。请注意，我们遵循[9]提供的协议，并使用PASCAL风格AP评估性能。选项卡. 图4示出了与几个现有的单级和两级检测器的比较在更快的情况下- RCNN [29]，R-FCN [7]，SSD [21]和RON [16]，重新”[9]这句话的意思是：除了这些检测器之外，我们还使用各自作者提供的公开代码评估了单阶段RetinaNet[18]。在单阶段方法中，SSD和RetinaNet的检测分数分别为33.62和33.95。最好的结果是通过两阶段R-FCN [7]实现的，AP评分为34.35。我们的检测器优于R-FCN，AP得分为37.81，同时提供近20倍的加速。图5（b）显示了我们方法的检测示例。5. 结论我们提出了一个单阶段的对象检测方法，有三个组成部分：标准SSD网络、轻量级临时网络（LSN）和双向网络。我们的LSN是从头开始训练的，产生的功能是对标准主干功能的补充。双向网络被设计为在检测网络内循环低/中级别和高级别语义信息。两个具有挑战性的检测数据集上的实验表明，我们的方法取得了优异的结果，具有较高的时间效率。致谢：这项工作得到了中国国家自然科学基金（Grant#61632018）的支持。方法骨干输入大小APFPS[29]第二十九话VGG-161024 ×54022.322.8R-FCN [7]ResNet-501024 ×54034.354.7SSD [21]VGG-16512 ×51233.62120.0[第16话]VGG-16512 ×51221.5911.1RetinaNet [18]ResNet-101-FPN512 ×51233.9525.0我们VGG-16512 ×51237.8191.01979引用[1] Yancheng Bai ， Yongqiang Zhang ， Mingli Ding ， andBernard Ghanem.Sod-mtgan：通过多任务生成对抗网络进行小目标检测。在ECCV，2018。2[2] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn：深入研究高质量的对象检测。在CVPR，2018年。6[3] 曹佳乐，庞彦伟，韩俊功，李雪龙。高性能射击探测器。在ICCV，2019年。1[4] 曹佳乐，庞彦伟，李雪龙。用于联合检测和分割的三重监督解码器网络。在CVPR，2019年。一、二[5] Kean Chen ， Jianguo Li ， Weiyao Lin ， John See ， JiWang，Lingyu Duan，Zhibo Chen，Changwei He，andJunni Zou.利用ap损失实现精确的一阶段目标检测在CVPR，2019年。6[6] Hisham Cholakkal、Guolei Sun、Fahad Shahbaz Khan和Ling Shao。具有图像级监控的对象计数和实例分割。在CVPR，2019年。1[7] 戴纪峰，易力，何开明，孙建R-FCN：通过基于区域的全卷积网络进行对象检测。在NIPS，2016年。六、八[8] Jifeng Dai，Haozhi Qi，Yuwen Xiong，Yi Li，GuodongZhang，Han Hu，and Yichen Wei.可变形卷积网络。InICCV，2017. 6[9] Dawei Du，Yuankai Qi，Hongyang Yu，Yifan Yang，Kaiwen Duan，Guorong Li，Weigang Zhang，QingmingHuang，and Qi Tian.无人机基准：目标检测和跟踪。在ECCV，2018。一、五、七、八[10] Cheng-Yang Fu ， Wei Liu ， Ananth Ranga ， AmbrishTyagi，Alexander，and C.伯格。Dssd：解卷积单次激发探测器。arXiv预印本arXiv：1701.06659，2017。二、三、六[11] 罗斯·格希克。快速R-CNN。在ICCV，2015年。2[12] 何凯明，罗斯 · 格希克和皮奥特· 多勒。重新思考imagenet 预培训。 arXiv 预印本 arXiv ： 1811.08883 ，2018。2[13] 何凯明、乔治亚·吉克萨里、彼得·多勒和罗斯·吉尔希克。面罩R-CNN。InICCV，2017. 6[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于视觉识别的深度卷积网络中的空间金字塔池。2014年，在ECCV。2[15] Jonathan Huang，Vivek Rathod，Chen Sun，MenglongZhu，Anoop Korattikara，Alireza Fathi，Ian Fischer，Zbigniew Wo-jna，Yang Song，Sergio Guadarrama，andKevin Murphy.现代卷积对象检测器的速度/精度权衡。在CVPR，2017年。二、三[16] Tao Kong，Fuchun Sun，Anbang Yao，Huaping Liu，Ming Lu，and Yurong Chen.Ron：反向连接对象先验网络进行对象检测。在CVPR，2017年。8[17] Tsung-Yi Lin ， Piotr Dollar ， Ross Girshick ， KaimingHe，Bharath Hariharan，and Serge Belongie.用于对象检测的特征金字塔网络。在CVPR，2017年。二三四六[18] Tsung-Yi Lin ， Priya Goyal ， Ross Girshick ， KaimingHe，and Piotr Dollr.用于密集对象检测的焦点损失。InICCV，2017. 一二三四六八[19] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔和C.劳伦斯1980齐

下载后可阅读完整内容，剩余1页未读，立即下载