深度特征金字塔重构：一种用于目标检测的新方法

191 浏览量更新于2023-10-08 收藏 2.9MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用于目标检测的深度特征金字塔重构孔涛1、孙富春1、黄文兵2、刘华平11清华大学计算机科学与技术系，北京国家信息科学与技术研究中心（BNRist）。{kt14@mails，fcsun@mail，hpliu@mail}. tsinghua.edu.cn2腾讯人工智能实验室。hwenbing@126.com抽象。最先进的对象检测器通常学习多尺度表示，以通过采用特征金字塔来获得更好的结果。然而，目前的特征金字塔设计仍然不能有效地集成不同尺度上的语义信息。在本文中，我们首先调查当前的特征金字塔的解决方案，然后重新制定的特征金字塔建设的特征重构过程。最后，我们提出了一种新的重构架构，结合低层次的表示与高层次的语义特征，在一个高度非线性，但有效的方式。特别是，我们的架构，其中包括全球性的注意和本地的重新配置，能够收集面向任务的功能，在不同的空间位置和规模，全球和本地。全局注意力和局部重新配置都是轻量级的、就地的和端到端可训练的。在基本的SSD系统中使用这种方法，我们的模型与原始模型及其其他变体相比，实现了一致和显着的提升，而不会失去实时处理速度。关键词：目标检测，特征金字塔，全局-局部重构1介绍从图像中检测不同尺度的对象是计算机视觉中的一个基本挑战[1]。解决这个问题的一种传统方法是直接在图像金字塔上构建特征金字塔。尽管效率低下，但这种方法已被应用于对象检测和许多其他任务以及手工设计的特征[7，12]。在本文中，我们专注于使用深度ConvNets检测对象除了能够表示更高级别的语义外，ConvNets还对尺度变化具有鲁棒性，因此可以从单个尺度输入计算的特征中检测多尺度对象[39，17]。然而，最近的工作表明，考虑金字塔表示可以进一步提高检测性能[30，20，16]。这是由于其生产的原则优势2Tao Kong等人多尺度特征表示，其中所有级别在语义上都是强的，包括高分辨率特征。有几个典型的作品探索的特征金字塔表示的对象检测。单次检测器（SSD）[34]是在ConvNets中使用这种技术的第一次尝试之一。给定一个输入图像，SSD将来自具有不同分辨率的多个特征层的预测组合在一起，以自然地处理各种大小的对象然而，SSD无法捕获浅层特征映射的深层语义，因为SSD中的自底向上路径只能学习深层的强特征，而不能学习浅层的强特征。这导致SSD检测小实例的关键瓶颈。为了克服SSD的缺点并使网络对对象尺度更鲁棒，最近的工作（例如，FPN [30]、DSSD [15]、RON [26]和TDM [44]）提出在自上而下路径中经由横向连接将低分辨率和语义强特征与高分辨率和语义弱特征组合。与SSD中的自下而上的方式相反，横向连接-s将语义信息逐层向下传递到浅层，从而增强了浅层特征的检测能力这样的技术成功地用于对象检测[15，31]、分割[19]、姿态估计[47]、运动估计[48]、运动估计[49]。5]等。理想情况下，ConvNets中的金字塔特性应该：（1）重用来自单个网络的不同层的多尺度特征，以及（2）在所有尺度上改进具有强语义的特征。FPN工程[30]通过横向连接满足这些条件。然而，FPN，正如我们在§ 3，实际上等同于特征层次结构的线性组合。然而，特征的线性组合太简单而不能捕获用于更复杂和实际情况的高度非线性模式。一些工作正在尝试开发更合适的连接方式[25，46，48]，或者在组合之前添加更多操作[28]。本文的基本动机是使网络能够更容易地学习到信息的输入，以一个简单的方式，给出了一个Co n vNet的特征层次结构。为了实现这一目标，我们明确地重新制定的特征金字塔的建设过程中的功能，在一个高度非线性而有效的方式重新配置功能。具体来说，我们的金字塔建设采用了全球性的注意力，强调全球信息的完整图像，然后由一个本地的重新配置模型的局部补丁内的感受野。由此产生的金字塔表示是能够传播强大的语义到所有尺度。与以往的研究包括SSD和FPN类模型相比，我们的金字塔结构在两个方面更具优势：1）全局-局部重构是非线性变换，因此描绘了更多的表达能力; 2）同时执行所有尺度的金字塔形处理，因此比逐层变换（例如，在横向连接中）。在我们的实验中，我们比较了SSD架构中不同的特征金字塔策略，并证明了所提出的方法更具竞争力。用于目标检测的深度特征金字塔重构3在准确性和效率方面都很有竞争力。本文的主要贡献概括如下：– 我们提出了全局关注和局部重构的方法来构建特征金字塔，以增强具有语义强信息的多尺度表示;– 我们在标准SSD框架下比较和分析了流行的特征金字塔方法，并证明了所提出的重构方法更有效;– 所提出的方法在标准对象检测基准（即，PASCAL VOC 2007、PASCAL VOC 2012和MS COCO），而不会损失实时处理速度。2相关工作手工设计的特征金字塔：在深度卷积网络广泛发展之前，HOG [45]和SIFT [35]等手工特征在特征提取中很受欢迎。为了使它们具有尺度不变性，这些特征在图像金字塔上计算[9，13]。为了有效计算，已经对图像金字塔进行了几次尝试[4，7，8]。多尺度特征金字塔上的滑动窗口方法通常应用于对象检测[10，14]。深层物体探测器：得益于深度ConvNets的成功，R-CNN [18]和Overfeat [41]等现代对象检测器在对象检测方面取得了显着改进。特别地，OverFeat通过将ConvNet作为图像金字塔上的滑动窗口检测器，采用与早期人脸检测器类似的策略; R-CNN采用基于区域的策略，并使用ConvNet对每个尺度归一化的建议进行分类。SPP-Net [20]和快速R-CNN[17]使用RoI-Pooling加速R-CNN方法，该RoI-Pooling允许分类层重用CNN特征图。从那时起，Faster R-CNN [39]和R-FCN [6]用轻量级网络取代了区域建议步骤，以提供完整的端到端系统。最近，Redmon etal.[37，38]提出了一种名为YOLO的方法，可以在一个步骤中预测边界框和关联类概率。深特征金字塔：为了使检测更可靠，研究人员通常通过在训练和测试期间输入具有多个分辨率的图像来采用多尺度表示[20，21，3]。显然，图像金字塔方法非常耗时，因为它们需要独立地计算每个图像尺度上的特征，因此ConvNet特征不能被重用。最近，许多方法通过在单个ConvNet中组合来自不同层的预测来提高检测性能例如，HyperNet [27]和ION [3]在进行检测之前结合了多个层的特征。为了检测各种大小的对象， SSD [34] 将不同尺度的默认框扩展到单个ConvNets中不同分辨率的多个层到目前为止，SSD是满足速度与准确性权衡的对象检测的理想选择[24]。最近，横向连接4Tao Kong等人(or反向连接）正变得流行并用于对象检测[15，30，26]。横向连接的主要目的是通过自上而下的路径丰富浅层的语义与这种逐层的连接相反，本文开发了一个灵活的框架，将多个层的语义知识集成到一个全局-局部的方案中。3方法在本节中，我们首先回顾SSD探测器，然后考虑侧向连接的最新改进。最后，我们提出了我们的特征金字塔重构方法。Fig. 1.不同的特征金字塔构造框架。左：SSD使用由ConvNet计算的金字塔特征层次结构，就好像它是一个特征化的图像金字塔; mid-dle：一些对象分割工作通过直接组合来自多个层的特征来产生最终检测特征图;右：FPN类框架通过自上而下的路径和横向连接加强浅层。ConvNet功能层次结构：基于Con-vNets的目标检测模型通常采用骨干网络（如VGG-16、ResNets）。考虑通过卷积网络传递的单个图像x0 网络包括L层，每个层由非线性变换Fl（·）实现，其中k 是L层。Fl（·）是一种基于卷积、池化、ReLU等的形式的复杂算法。我们将第 l 层的输出表示为 xl 。总骨干网输出表示为 X_net={xl ，x2，...，x L}。在没有特征层次结构的情况下，诸如Faster R-CNN [39]之类的对象检测器使用一个深度和语义层（如xL）来执行对象检测。在SSD [34]中，预测特征图集合可以表示为X pred={xP，xP+1，. . . ，x L}，（1）其中P13。在这里，深度特征图XL学习高语义抽象。当P1L，xl变得更浅，因此具有更多的低级特征。SSD使用较深的层来检测大的实例，而使用浅的和高分辨率的层来检测小的实例4。高分辨率的地图-3对于基于VGG-16的模型，P=23，因为我们从conv 4 3层开始预测。4这里的大部分内容都是在内存大小较小的情况下，而不是在实际的实例大小中，对对象进行预处理。用于目标检测的深度特征金字塔重构5语义信息损害了它们对对象识别的表征能力。当检测小实例时，它错过了重用更深层次和语义信息的机会，这是提高性能的关键瓶颈。横向连接：为了丰富浅层的语义信息，一种方法是从更深层添加特征5。以FPN方式[30]为例，我们得到′xL=xL，′xL−1=αL−1·xL−1+βL−1·xL，′ ′xL−2=αL−2·xL−2+βL−2·xL −1，（2）=αL−2·xL−2+βL−2αL−1·xL−1+βL−2βL−1·xL，其中α、β是权重。不失一般性，′xl= ΣLl=Pwl·xl，（3）其中W1是在类似多项式扩展之后为第L层输出生成的最终权重最后，用于检测的特征表示为：′ ′ ′ ′Xpred ={xP，xP +1，. . . ，XL}。（四）′从等式3中我们看到，最终特征Xl等效于线性组合。国家x l，x l+1，. . . ，x L. 具有更深特征层次的线性组合当潜在概念的样本是线性可分的时，线性模型可以达到很好的抽象程度。然而，用于检测的特征层次结构通常存在于非线性流形上，因此捕获这些概念的表示通常是输入的高度非线性函数[29，33，23]。如所示，其保留功率不足以满足对象检测的复杂性3.1深度特征重构给定深特征层级X =[x P，x P+1，. . . ，x L]，目标检测框架的关键问题是为每一级检测器生成合适的特征。在本文中，在第l层的特征生成过程被视为一个给定的特征层次的非线性变换（图1）。2）：′xl=Hl（X）（5）5当两层的分辨率不相同时，通常在合并前进行上采样和6Tao Kong等人全球关注局部重构图二.顶部：建议的特征金字塔构建网络的概述。我们首先结合多个特征图，然后生成特定级别的特征，最后在多个尺度上检测目标。向下：说明全局关注和局部重新配置的构建块。其中X是考虑用于多尺度检测的特征层次。为了便于实施，我们将Hl（·）的多个输入计算在Eq中。在随后的变换6之前，将图5中的张量转换为单个张量。由于没有先验的特征层次结构的潜在概念的分布，它是可取的，使用一个通用的函数逼近的特征提取的每个尺度。该功能还应保持空间一致性，因为检测器将在相应位置处激活每个级别的最终特征是特征层次的非线性变换，其中可学习的参数在不同的空间位置之间共享。在本论文中，我们将多个问题归结为全局关注和局部重构问题。全局注意力和局部重新配置都是由一个轻量级网络实现的，因此它们可以嵌入到ConvNets中并进行端到端学习。全局和局部操作也是彼此互补的，因为它们处理来自不同尺度的特征层次结构。给定特征层次结构，全局部分的目的是强调信息特征，并针对特定尺度全局抑制不太有用的特征在本文中，我们应用压缩和激发块[23]作为基本模块。一个挤压和激发块包括两个步骤，挤压和激发。对于第l级层，挤压阶段被公式化为X的每个通道上的全局池化操作，其6对于具有W×H空间分辨率的目标尺度，在级联之前进行自适应采样。用于目标检测的深度特征金字塔重构7LLL2R1x1，2563x3，641x1，2561x1，256具有W×H×C尺寸：zc=1ΣWΣH宽×高xc（i，j）（6）i=1j =1其中xc（i，j）指定在第c通道、第i列和第j行处的一个元素。如果在特征X中存在C个通道，则等式8将生成C个输出元素，表示为zl。激励级是两个完全连接的层，随后是具有输入zl的S形激活：s1 =σ（W1δ（W1z1））（7）L21C其中δ是指ReLU函数，σ是S形激活，Wl ∈Rr 和W2∈Rc. r被设置为16以进行降维。块的最终输出通过用激活重新缩放输入X来x~c=scxc（8）L lX~1=[x~P，x~P+1，. . . .，x~L]，其中x ~L是多个子集。M或D-l l l尾部可以参考SENets [23]论文。最初的SE块是为了明确地对通道之间的相互依赖性进行建模而开发的，并且在对象识别方面取得了巨大的成功[2]。相比之下，我们应用它来强调通道级的层次结构功能和抑制不太有用的。通过在输入层次上动态地采用条件，SE块有助于提高特征的可区分性，并在全局上选择更多有用的信息。局部重配置局部重配置网络将特征层次补丁映射到输出特征补丁，并且在所有局部接收域之间共享。通过在输入上滑动操作来获得输出特征图。在这项工作中，我们设计了一个残差学习块作为微网络的实例化，这是一个通用的函数逼近器，可以通过反向传播进行训练（图3）。图3.第三章。示出了针对级别1的本地重新配置的构建块。形式上，一个局部重新配置被定义为：8Tao Kong等人′xl=R（X~l）+Wl×l（9）其中Wl是在第七方向上的直线。 R（·）表示改进待学习的语义的残差映射。生成特征金字塔的直接方式是仅使用Eq中的项R（·）。9. 然而，如在[21]中所定义的，与优化期望的底层映射相比，优化所述我们在4.1节中的实验也证明了这个假设。我们注意到我们的残差学习模块与ResNets [21]中提出我们的假设是语义信息分布在特征层次中，并且剩余学习块可以通过优化来选择额外的信息。而[21]中残差学习的目的是通过增加网络深度来获得准确性。另一个区别是残差学习的输入是特征层次，而在[21]中，输入是一个卷积输出级别。R（·）上的对偶函数的形式也是简单的。在该方案中，我们涉及具有三层的功能（图3），而更多层是可能的。逐元素加法在两个特征图上逐个通道地执行由于金字塔的所有级别都使用共享操作进行检测，因此我们在所有特征图中固定特征维度（通道数，表示为d我们在本文中设置d= 256，因此用于预测的所有层都有256通道输出。4实验我们对三个广泛使用的基准进行了实验： PASCAL VOC 2007 ，PASCAL VOC 2012 [11]和MS COCO数据集[32]。所有网络主干都在ImageNet1k分类集[40]上进行预训练，并在检测数据集上进行微调。我们使用预训练的VGG-16和公开可用的ResNets模型8。我们的实验基于使用Pytorch [36]重新实现SSD [34]，Faster R-CNN [39]和特征金字塔网络[30]对于SSD框架，X中的所有层都被调整大小为VGG中的层conv8 2和ResNet-101中的层conv 6 x的空间大小，以保持与DSSD的一致性。对于Faster R-CNN管道，调整后的空间大小与VGG和ResNet-101主干中的conv 4 3层相同4.1Pascal VOC 2007实作详细数据。所有模型都在VOC 2007和VOC 2012训练集上进行训练，并在VOC 2007测试集上进行测试对于单阶段SSD，我们将前160个epoch的学习率设置为10−3，并将其衰减为10−4和10−57尺寸相同时，不需要使用，如图3中虚线所示。8https://github.com/pytorch/vision用于目标检测的深度特征金字塔重构940和40个时期。我们在训练中使用默认批量大小32，并使用VGG-16作为PASCAL VOC数据集上所有消融研究实验的骨干网络对于两阶段Faster R-CNN实验，我们遵循[39]中介绍的训练策略。我们还报告了这些模型中使用的ResNets的结果。基线为了与原始SSD及其特征金字塔变体进行公平比较，我们进行了两个基线：原始SSD和具有特征横向连接的SSD在表1中，原始SSD评分为77.5%，与[34]中报道的相同。在SSD中添加外侧连接将结果提高到78.5%（SSD+外侧）。当使用上述提出的全局和局部重构策略时，结果提高到79.6%，这比具有横向连接的SSD好1.6%。接下来，我们将更详细地讨论消融研究。表1.使用SSD300的各种设计的有效性方法骨干FPS最大平均接入点（%）SSD（咖啡厅）[34]VGG-164677.5SSD（ours-re）VGG-164477.5SSD+外侧VGG-163778.5仅SSD+本地VGG-164079.0仅SSD+本地（无分辨率）VGG-164078.6SSD+全局-本地VGG-1639.579.6全球关注有多重要？在表1中，第四行显示了我们的模型在没有全局关注的情况下的结果。通过这种修改，我们删除了全局注意力部分，并直接添加到特征层次结构的局部变换在没有全球关注的情况下，结果下降到79.0%mAP（-0.6%）。全局注意力使网络更加关注具有合适语义的特征，并有助于检测具有变化的实例。与侧方连接的比较SSD加整体和局部重建的效果提高到79.6%，比SSD提高2.1%这是因为在自底向上的金字塔中，不同层次之间存在很大的语义差距全局和局部重构有助于检测器选择更合适的特征图。这个问题不能仅仅通过横向连接来简单地补救我们注意到，仅添加局部重构，结果优于横向连接（+0.5%）。10Tao Kong等人生成最终特征金字塔的一种方式是仅使用项R（·）。 inEq. 9. 与每一个单一的银行相比，下降了0.4%。残差学习块可以避免目标函数的梯度直接流入骨干网络，从而提供更多的机会来更好地建模特征层次。使用所有要素层次结构还是仅使用更深层？在等式3中，横向连接仅考虑比对应级别更深（并且相同）的特征图为了更好地将我们的方法与横向连接进行比较，我们进行了一个只考虑深层的实验。其他设置与之前的基线相同我们发现，仅仅使用更深的特征会使准确率下降一小部分（-0.2%）。我们认为不同之处在于，当使用总特征层次结构时，更深层也有更多机会重新组织其特征，并且具有更大的提升结果的潜力，从PANet的最新工作中也得出了类似的结论[33]。精度与速度我们在表1的第三列中展示了不同模型的推理速度。在具有NVIDIA Titan X、CUDA 8.0和cuDNN v5的机器上以批量大小1评估速度。我们的模型具有2.7%的精度增益，39.5fps。与基于横向连接的SSD模型相比，该模型具有更高的精度和更快的速度。在基于横向连接的模型中，金字塔层是连续生成的，从而最终构建′被考虑用于检测的层成为速度瓶颈（等式中的xP）4）. 在在我们的设计中，所有最终的金字塔地图都是同时生成的，并且更有效。为了验证所提出的特征重构方法的生成，我们在两阶段FasterR-CNN流水线下进行了实验。在表2中，使用ResNet-101的更快R-CNN获得了78.9%的 mAP具有横向连接的特征金字塔网络将结果提高到79.8%（+0.9%）。当用全局-局部变换代替横向连接时，我们得到80.6%（+1.8%）的得分这一结果表明，我们的全局和局部重构也是有效的两阶段的对象检测框架，可以提高其性能。与其他最先进技术的比较表3显示了我们基于SSD的VOC2007测试集的结果[34]。我们的300 × 300模型实现了79.6%的mAP，远优于基线方法SSD300（77.5%），与SSD512相当。将输入图像放大到512× 512将结果提高到81.1%。值得注意的是，我们的模型比其他尝试包含上下文信息的方法（如MRCNN [10]和ION [3]）要好得多。当将骨干网络从VGG-16替换为ResNet-101时，我们的512×512模型的得分为82.4%，没有花哨的东西，这远远优于一级DSSD [15]和两级R-FCN [6]。用于目标检测的深度特征金字塔重构11表2.Faster R-CNN中各种设计的有效性方法骨干最大平均接入点（%）更快[39]VGG-1673.2更快[6]ResNet-10176.4更快（我们的-re）ResNet-5077.6更快（我们的-re）ResNet-10178.9更快+FPNResNet-5078.8更快+FPNResNet-10179.8更快+全球-本地ResNet-5079.4更快+全球-本地ResNet-10180.6表3.PASCAL VOC 2007测试检测结果。所有模型都使用07+12（07 trainval+12 trainval）进行训练具有每个对象类别的最佳AP的条目以粗体显示。方法主干mAP（%）空气自行车鸟船瓶式公共汽车车猫椅子牛表狗马摩托车人植物羊沙发列车电视更快[39]VGG-1673.276.579.070.965.552.183.184.786.452.081.965.784.884.677.576.738.873.673.983.072.6离子[3]VGG-1676.579.279.277.469.855.785.284.289.857.578.573.887.885.981.375.349.776.974.685.282.1MRCNN[16]VGGNet78.280.384.178.570.868.588.085.987.860.385.273.787.286.585.076.448.576.375.585.081.0更快[39]ResNet-10176.479.880.776.268.355.985.185.389.856.787.869.488.388.980.978.441.778.679.885.372.0R-FCN[6]ResNet-10180.579.987.281.572.0 69.8 86.888.589.8 67.0 88.174.589.8 90.6 79.981.253.781.8 81.5 85.979.9SSD300[34]VGG-1677.579.583.976.069.650.587.085.788.160.381.577.086.187.583.979.452.377.979.587.676.8SSD512[34]VGG-1679.584.885.181.573.057.887.888.387.463.585.473.286.286.783.982.555.681.779.086.680.0楼梯网[46]VGG-1678.881.385.477.872.159.286.486.887.562.785.776.084.188.486.178.854.877.479.088.379.2RON320[26]VGG-1676.679.484.375.569.556.983.784.087.457.981.374.184.185.383.577.849.276.777.386.777.2DSSD321[15]ResNet-10178.681.984.980.568.453.985.686.288.961.183.578.786.788.786.779.751.778.080.987.279.4DSSD513[15]ResNet-10181.586.686.2 82.6 74.962.5 89.0 88.788.865.287.078.788.289.087.583.751.186.381.685.7 83.7我们的300VGG-1679.684.585.577.272.153.987.687.989.463.886.176.187.388.886.780.054.680.581.288.980.2我们的512VGG-1681.190.087.079.975.160.388.8 89.6 89.665.8 88.4 79.487.590.185.681.954.879.080.887.279.9我们的300ResNet-10180.289.384.979.9 75.6 55.488.288.688.663.387.978.887.387.785.580.555.481.179.687.878.5我们的512ResNet-10182.492.0 88.2 81.171.265.788.287.9 92.2 65.886.5 79.4 90.3 90.489.388.659.4 88.4 75.3 89.2 78.5为了更详细地了解我们方法的性能，我们使用[22]中的检测分析工具。图4显示我们的模型可以高质量地检测各种对象类别。该方法的召回率高于90%，且与"w e ak“（0。[001 pdf 1st-31files]1.4.2Pascal VOC 2012对于VOC2012任务，我们遵循VOC2007的设置，并在此处描述一些我们使用由VOC2007 trainval、VOC2007 test和VOC2012 trainval组成的07++12我们看到了与VOC 2007测试相同的性能趋势如表4所示的结果证明了我们的模型的有效性与SSD相比[34]与其他变体相比，所提出的网络明显更好（300 ×300为+2.7%）。与以ResNet-101为骨架的DSSD相比，我们的模型以VGG-16为骨架得到了类似的结果。最近提出的RUN [28]通过跳过连接和统一预测改进了SSD的结果。该方法在预测前加入多个残差块，提高了预测的非线性能力。与RUN相比，该模型更直接，检测性能更好。我们使用ResNet-101的最终结果得分为81.1%，这比最先进的方法要好得多12Tao Kong等人CorLocSimOthBGCorLocSimOthBG各类型百分比各类型100动物100车辆100家具80 808060 606040 404020 202000.1250.250.51 2 48检测总数（x 357）00.1250.250.51 2 48检测总数（x 415）00.1250.250.51 2 4 8总检测（x 400）见图4。我们的模型在VGG-16和300× 300输入分辨率下对动物、车辆和家具的性能可视化，来自VOC 2007测试。这些图显示了正确（Cor）或由于以下原因的假阳性检测的累积分数：定位不良（Loc）、与类似类别混淆（Sim）、与其他类别混淆（Oth）或与background混淆（B G）。随着检测次数的增加，该低分辨率反映了具有该测试标准（0.5 Jaccard重叠）的检测的变化红色虚线表示一个字母（0）。1jaccardoverlap）。表 4. PASCAL VOC 2012 测试检测结果。所有模型都使用 07++12 （ 07trainval+test + 12 trainval）进行训练。具有每个对象类别的最佳AP的条目以粗体显示方法网络最大平均接入点（%）Aero 自行车鸟船瓶总线车猫椅子牛表狗马姆比克佩森植物羊沙发火车电视更快[39]ResNet-10173.886.581.677.258.051.078.676.693.248.680.459.092.185.384.880.748.177.366.584.765.6R-FCN[6]ResNet-10177.686.983.4 81.5 63.862.481.681.193.158.083.860.892.786.084.684.459.080.868.686.172.9离子[3]VGG-1676.487.584.776.863.858.382.679.090.957.882.064.788.986.584.782.351.478.269.285.273.5SSD300[34]VGG-1675.888.182.974.461.947.682.778.891.558.180.064.189.485.785.582.650.279.873.686.672.1SSD512[34]VGG-1678.590.085.377.764.358.585.184.392.661.383.465.189.988.588.285.554.482.470.787.175.6DSSD321[15]ResNet-10176.387.383.375.464.646.882.776.592.959.578.364.391.586.686.682.153.379.675.785.273.9DSSD513[15]ResNet-10180.092.186.680.368.758.284.385.0 94.6 63.385.965.6 93.0 88.587.886.457.485.273.487.876.8YOLOv2[38]暗网-1975.486.685.076.861.155.581.278.291.856.879.661.789.786.085.084.251.279.462.984.971.0DSOD[42]DenseNet76.389.485.372.962.749.583.680.692.160.877.965.688.985.586.884.651.177.772.386.072.2RUN300[28]VGG-1677.188.284.476.263.853.182.979.590.960.782.564.189.686.586.683.351.583.074.087.674.4RUN512[28]VGG-1679.890.0 87.380.267.462.484.9 85.6 92.961.884.966.290.989.188.086.555.4 85.0 72.687.776.8楼梯网[46]VGG-1676.487.783.174.664.251.383.678.092.058.981.8 66.2 89.686.084.982.650.980.571.886.273.5我们的300VGG-1677.589.585.077.764.354.681.680.091.660.082.564.789.985.486.184.153.281.074.287.975.9我们的512VGG-1680.089.6 87.4 80.968.361.083.583.992.463.885.963.989.989.288.986.256.384.475.589.778.5我们的300ResNet-10178.789.485.780.265.158.684.381.891.963.684.265.689.685.986.085.054.481.9 75.9 87.877.5我们的512ResNet-10181.187.485.781.4 71.1 64.3 85.1 84.892.2 66.3 87.6 66.190.3 90.1 89.687.260.0 84.475.7 89.7 80.14.3MS Coco为了在更大且更具挑战性的数据集上进一步验证所提出的框架，我们在MS COCO [32]上进行实验，并报告来自测试开发评估服务器的结果MS COCO数据集的评价指标与PASCAL VOC不同。不同IoU阈值（从0.5到0.95（写为0.5：0.95）是方法的总体性能。我们使用80 k训练图像和40 k验证图像[32]来训练我们的模型，并在包含20 k图像的test-dev数据集上验证性能。对于基于ResNet- 101的模型，由于内存问题，我们分别将320×320和512× 512模型的批量大小设置为32和20。使用标准COCO评估指标，SSD 300得分为25.1% AP，我们的模型将其提高到28.4% AP（+3.3%），这也与使用ResNet-101主干的DSSD（28.0%）相当。当将主干改为ResNet-101时，我们的模型获得了31.3%的AP，这比DSSD 321（+3.3%）要好得多的CorLocSimOthBG各类型百分比用于目标检测的深度特征金字塔重构13方法列车数据输入大小网络平均精度0.5 0.75 0.5：0.95两级OHM ++[43]trainval∼1000 ×600VGG-1645.926.1 25.5更快[39]trainval∼1000 ×600VGG-1642.7 - 21.9R-FCN[6]trainval∼1000 ×600ResNet-10151.9 - 29.9CoupleNet[49]火车35k∼1000 ×600ResNet-10154.837.2 34.4一期SSD300[34]火车35k300 ×300VGG-1643.125.8 25.1SSD512[34]火车35k512 ×512VGG-1648.530.3 28.8SSD513[15]火车35k513 ×513ResNet-10150.433.1 31.2DSSD321[15]火车35k321 ×321ResNet-10146.129.2 28.0DSSD513[15]火车35k513 ×513ResNet-10153.335.2 33.2RON320[26]trainval320 ×320VGG-1647.525.9 26.2YOLOv2[38]火车35k544 ×544暗网-1944.019.2 21.6RetinaNet[31]火车35k500 ×500ResNet-10153.136.8 34.4我们的300trainval300 ×300VGG-1648.229.1 28.4我们的512trainval512 ×512VGG-1650.932.2 31.5我们的300trainval300 ×300ResNet-10150.532.0 31.3我们的512trainval512 ×512ResNet-10154.337.3 34.6表5.MS COCO test-dev 2015检测结果。通过使用512× 512的更大输入大小，我们模型的准确性可以提高到34.6%，这也优于最近提出的RetinaNet [31]，后者增加了横向连接和焦点损失，以更好地检测目标。表6报告了我们的方法在使用ResNet-101主干的SSD框架下的多尺度对象检测结果。据观察，我们的方法实现了更好的检测精度比SSD和DSSD的所有尺度的对象。方法APsAPmAPlAPSSD51310.234.549.831.2DSSD51313.035.451.133.2我们的51214.738.151.934.6表6. MS COCO test-dev 2015对小型（APs）、中型（APm）和大型（APl）物体的检测结果。5结论在ConvNet下构建特征金字塔表示的关键问题是重新配置和重用特征层次结构。本文对这一问题进行了研究14Tao Kong等人通过全局和局部变换。这种表示使我们能够明确地建模的功能重新配置过程中的特定规模的对象。我们进行了广泛的实验，比较我们的方法与其他功能金字塔的变化。我们的研究表明，尽管深度ConvNet具有很强的代表性，但仍有空间和潜力构建更好的金字塔来进一步解决多尺度问题。鸣谢本工作得到了国家自然科学基金（NSFC）和德国研究基金会（DFG）联合项目NSFC 61621136008/DFG TRR-169和国家自然科学基金（批准号：61327809，61210013）的资助。图五.在VOC 2007测试集上使用SSD 300（77.5% mAP）和Ours-300（79.6%mAP）型号的定性检测示例。对于每一对，左边是SSD的结果我们显示分数高于0.6的检测。每种颜色对应于该图像中的对象类别。引用1. 阿德尔森E.H.安德森，C.H.，Bergen，J.R.伯特PJ奥格登，J.M.：金字塔式结构是一种信息处理方法。RCAengineer29（6），33用于目标检测的深度特征金字塔重构152. Badrinarayanan，V. Kendall，A.，Cipolla，R.：Segnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions onPat-ternanalysisandmacinein e intelligence39（12），248 13. B

下载后可阅读完整内容，剩余1页未读，立即下载