没有合适的资源?快使用搜索试试~ 我知道了~
DetNet:目标检测的设计骨干李泽明1【0000−0002−1599−2853】、彭超2【0000−0003−4069−4775】、于刚2【0000−0001−5570−2710】、张翔宇2【0000−0003−2138−4608】、邓扬东1【0000−0002−8257−693X】、孙建2【0000−0002−6178−4166】1清华大学软件学院{lizm15@mails.tsinghua.edu.cn,dengyd@tsinghua.edu.cn}2Megvii Inc.(Face++),{彭超,于刚,张翔宇,孙健}@ megvii.com抽象。最近基于CNN的对象检测器,无论是像YOLO,SSD和RetinaNet这样的一阶段方法,还是像Faster R-CNN,R-FCN和FPN这样的两阶段检测器,通常都试图直接从为图像分类任务设计的ImageNet预训练模型中进行微调。然而,一直很少有工作讨论的骨干特征提取器专门设计的目标检测的任务更重要的是,图像分类和目标检测的任务之间存在一些差异(i)最近的对象检测器,如FPN和RetinaNet,通常涉及针对图像分类任务的额外阶段,以处理具有各种尺度的对象。(ii)目标检测不仅需要识别目标实例的类别,还需要对它们进行空间定位。较大的下采样因子带来较大的有效接收域,有利于图像分类,但不利于目标定位。由于图像分类和目标检测之间的差距,我们在本文中提出了DetNet,这是一种专门为目标检测设计的新型骨干网络此外,DetNet包括针对传统骨干网络进行图像分类的额外阶段,同时在更深层保持高空间分辨率在没有任何额外功能的情况下,基于我们的DetNet(4.8G FLOPs)主干的MSCOCO基准测试中,对象检测和实例分割都获得了最先进的结果代码将发布3。关键词:目标检测;卷积神经网络,图像分类1介绍目标检测是计算机视觉中最基本的任务之一。由于深度卷积神经网络(CNN)的快速发展[17,35,36,10,16,38,12,40,15,11],对象检测的性能得到了显着提高。最近的基于CNN的对象检测器可以分为一级检测器,如YOLO[29,30],SSD [24]和RetinaNet [22],以及两级检测器,例如更快的R-CNN [31],R-FCN [18],FPN [21]。两者都依赖于3https://github.com/zengarden/DetNet2李泽明为ImageNet分类任务预训练的骨干网络然而,图像分类和目标检测问题之间存在差距,不仅需要识别对象实例的类别,而且还需要在空间上定位边界框。更具体地,使用分类主干用于对象检测任务存在两(i)最近的探测器,例如,FPN涉及与用于ImageNet分类的骨干网络相比的额外阶段,以便检测具有各种大小的对象(ii)传统的骨干基于大的下采样因子产生更高的感受野,这有利于视觉分类。然而,空间分辨率会受到影响,这将无法准确地定位大对象并识别小对象。一个设计良好的检测主干应该解决上述所有问题在本文中,我们提出了DetNet,这是一个新的骨干设计的对象检测。更具体地,为了解决对象实例的大尺度变化,DetNet涉及在最近的对象检测器(如FPN)中利用的附加级与传统的ImageNet分类预训练模型不同,即使包含额外的阶段,我们也保持了特征的空间分辨率然而,由于计算和存储成本,高分辨率特征图为构建深度神经网络带来了更多为了保持我们的DetNet的效率,我们采用了一个低复杂度的扩张瓶颈结构。通过集成这些改进,我们的DetNet不仅保持了高分辨率的特征图,而且还保持了大的感受野,这两者对于对象检测任务都很重要。总结一下,我们有以下贡献:– 我们是第一个分析传统ImageNet预训练模型的固有缺点,用于微调最近的对象检测器。– 我们提出了一种新的骨干,称为DetNet,这是专门设计的对象检测任务,通过保持空间分辨率和扩大的感受野。– 我们实现了新的国家的最先进的成果MSCOCO对象检测和实例分割跟踪的基础上,一个低复杂度的DetNet59骨干。2相关作品目标检测是计算机视觉中的一个重要研究课题。其目的是找出“何时”和“何时”在给定的信息中进行访问。OId检测器通过使用手工设计的对象分量描述符(诸如HOG [5]、SIFT [26]、选择性搜索[37]、边缘框[41])来提取图像特征。长期以来,DPM [8]及其变体是传统对象检测器中的主导方法。随着深度卷积神经网络的快速发展,基于CNN的对象检测器已经取得了显着的成果,并成为检测文献中的新趋势。在网络结构中,最近基于CNN的检测器通常分为两部分。一个是骨干网,另一个是检测分支。我们简要介绍这两个部分如下。DetNet:目标检测32.1骨干网用于对象检测的骨干网络通常借用自ImageNet [32]分类。在过去的几年里,ImageNet被认为是评估深度卷积神经网络能力的最权威数据集。许多新颖的网络被设计为获得ImageNet的更高性能AlexNet [17]是第一个尝试增加CNN深度的公司之一。为了减少网络计算并增加有效的感受野,AlexNet以32个步幅对特征图进行下采样,这是以下工作的标准设置VGGNet [35]堆栈3x3卷积运算以构建更深的网络,同时仍然涉及特征映射中的32个步幅。后续的研究大多采用了类似VGG的结构 , 并 在 每 个 阶 段 ( 按 步 幅 分 割 ) 设 计 了 一 个 更 好 的 组 件 。GoogleNet [36]提出了一种新颖的Inception Block来改进虚拟化的虚拟化。ResNet[10]在每一阶段采用残差和操作进行“底部”设计,这已被证明是建立更深层次神经网络的简单有效的ResNext [38]和Xception [2]使用组卷积层来代替传统的卷积。它减少了参数,同时提高了精度。DenseNet [13]密集地连接了几个层,它进一步减少了参数,同时保持了有竞争力的准确性。另一种不同的研究是扩张残差网络[39],其以较小的步幅提取特征。DRN在分割方面取得了显著的效果,但在目标检测方面的讨论却很少。对于高效的骨干网,仍然有很多研究,如[11,40,15]。然而,它们通常被设计用于分类。2.2目标检测分支检测分支通常附加到为ImageNet分类数据集设计和训练的基础模型。存在用于对象检测的两种不同的设计逻辑一种是单阶段检测器,直接使用骨干进行对象实例预测。例如,YOLO [29,30]使用了一个简单有效的主干DarkNet[29],然后将检测简化为回归问题。SSD [24]采用简化的VGGNet[35]并在多层中提取特征,这使得网络能够更强大地处理不同的对象尺度。RetinaNet [22]使用ResNet作为您的xt另一种流行的流水线是两级检测器。具体地说,最近的两阶段检测器将预测大量的建议,首先基于骨干,然后一个额外的分类器涉及的建议分类和回归。更快的R-CNN [31]通过使用区域建议网络(RPN)直接从主干生成建议。R-FCN [18]提出从主干的输出生成位置敏感特征图,然后对每个提议使用称为位置敏感池化的可变形卷积网络[4]试图通过在没有监督的情况下学习额外的偏移量来实现具有几何变换的卷积运算。它是第一个改进对象检测骨干的[21]第二十一话4李泽明FPN通过利用深度卷积网络固有的多尺度、金字塔结构来构建特征金字塔,具体地说,FPN通过利用U形结构来组合多层输出,并且仍然借用传统的ResNet而无需进一步研究。DSOD [33]首先提出从头开始训练检测,其结果低于预先训练的方法。总之,传统的主干通常是为ImageNet分类而设计的对象检测的合适主干是什么仍然是一个未探索的领域。大多数最近的对象检测器,无论是一级还是两级,都遵循ImageNet预训练模型的管道,这对于检测性能来说并不是最佳的。在本文中,我们提出了DetNet。DetNet的核心思想是为对象检测设计一个更好的主干。3DetNet:一种用于目标检测的3.1动机最近的对象检测器通常依赖于在ImageNet分类数据集上预训练的骨干网络。由于ImageNet分类的任务不同于对象检测,对象检测不仅需要识别对象的类别,而且还需要在空间上定位边界框。图像分类的设计原则对于定位任务并不好,因为对于VGG16和Resnet等标准网络,特征 图 的 空 间 分 辨 率 逐 渐 降 低 。 一 些 技 术 , 如 特 征 金 字 塔 网 络(FPN),如图。凌晨1 [21]并且对这些网络应用膨胀以保持空间分辨率。然而,在使用这些骨干网络进行训练时,仍然存在以下三个问题。Fig. 1. FPN中使用的不同主链的比较。具有传统主干的特征金字塔网络(FPN)在(A)中示出。用于图像分类的传统骨干在(B)中示出我们提出的主干如(C)所示,它具有更高的空间分辨率和与FPN相同的阶段。由于图尺寸的限制,我们不示出阶段1(具有步幅2)特征图。DetNet:目标检测5网络阶段的数量不同。 如图在图1B中,典型的分类网络包括5个阶段,每个阶段通过池化2x或步幅2卷积对特征图进行下采样。因此输出fea-的空间大小真实图是“32x”子采样的。与传统的分类网络不同,特征金字塔检测器通常采用更多的阶段。例如,在特征金字塔网络(FPN)[21]中,添加了一个额外的阶段P6来处理更大的对象。P6和P7的阶段以类似的方式添加到RetinaNet [22]中。显然,像P6这样的额外阶段并没有在ImageNet数据集中预先训练大型物体的弱可见性(局部化) 具有强语义信息的特征图相对于输入图像具有32的步幅,这带来了大的有效感受野,并导致ImageNet分类任务的成功。然而,大的步幅因子对目标定位是有害的。在特征金字塔网络中,大型对象在较深的层中生成和预测,这些对象的边界可能太模糊而无法获得准确的回归。当更多的阶段被涉及到分类网络中时,这种情况甚至更糟,因为更多的下采样给对象带来更多的步幅小物体的不可见性(召回)。大步幅的另一个缺点是丢失小对象。随着特征图空间分辨率的降低和大背景信息的融合,小目标的信息很容易被削弱。因此,特征金字塔网络预测较浅层中的小对象。然而,浅层通常仅具有低语义信息,这可能不足以识别出所述对象的类别。对象实例。因此,检测器通常通过涉及来自更深层的高级表示的上下文线索来增强其分类能力。如图1A所示,特征金字塔网络通过采用自底向上的路径来缓解它。然而,如果小对象在更深层中缺失,则这些上下文线索将同时减少。为了解决这些问题,我们提出了DetNet,它具有以下特点。(i)级的数量直接设计用于对象检测。(ii)即使我们涉及比传统分类网络更多的阶段(例如6个阶段或7个阶段),我们也保持了特征图的高空间分辨率,同时保持了大的感受野。DetNet与ResNet等传统骨干网络相比,在对象检测方面具有几个优势首先,DetNet与所使用的检测器具有完全相同的阶段数,因此可以在ImageNet数据集中预先训练像P6这样的额外阶段。第二,得益于最后阶段的高分辨率特征图,DetNet在定位天体边界和发现小天体方面更强大。更详细的讨论可参见第4节。3.2DetNet设计在本小节中,我们将介绍DetNet的详细结构。我们采用ResNet-50作为我们的基线,它被广泛用作许多骨干网络6李泽明物体探测器。为了与ResNet-50进行公平比较,我们将阶段1,2,3,4与DetNet的原始ResNet-50保持相同。有两个挑战,使一个高效和有效的骨干对象检测。一方面,保持深度神经网络的空间分辨率另一方面,降低下采样因子将导致小的有效感受野,这将是有害的许多视觉任务,如图像分类和语义分割。DetNet经过精心设计,可以解决这两个挑战。具体来说,Det- Net从第一阶段到第四阶段遵循ResNet的相同设置。区别从第五阶段开始,我们的DetNet图像分类概述可以在图中找到。2 D.让我们来讨论一下从ResNet50派生的DetNet59的实现细节。类似地,我们的DetNet可以很容易地扩展到像ResNet101这样的深层。我们的DetNet59的详细设计如下所示:– 我们引入额外的阶段,例如,P6,在主干中,其将用于如在FPN中的对象检测。同时,我们在阶段4之后将空间分辨率固定为16x下采样。– 由于空间大小在阶段4之后是固定的,为了引入新的阶段,我们采用具有1x1卷积投影的扩张[27,25,1]瓶颈(图13)。(2)在每个阶段的开始阶段。我们在图中找到模型。2 B对于FPN等多级探测器很重要。– 我们应用瓶颈与扩张作为一个基本的网络块,有效地扩大感受野。由于扩张卷积仍然很耗时,我们的阶段5和阶段6保持与阶段4相同的通道(瓶颈块的256个输入这与传统的骨干网设计不同,传统的骨干网设计将在稍后阶段使通道加倍。很容易将DetNet与具有/不具有特征金字塔的任何检测器集成。在不失去代表性的情况下,我们采用突出的检测器FPN作为我们的基线来验证DetNet的有效性由于DetNet只改变了FPN的骨架,我们修复了FPN中除骨架外的其他结构。因为我们在Resnet-50的第4阶段之后没有减少空间大小,所以我们简单地以自顶向下的路径方式对这些阶段的输出进行求和。4实验在本节中,我们将在流行的MS COCO基准上评估我们的方法,该基准具有80个对象类别。训练中有80k个图像集,以及验证数据集中的40k个图像。按照通常的做法,我们进一步将40k验证集分成35k大值数据集和5k小值数据集。我们所有的验证实验都涉及训练集和用于训练的大值(约115k图像),然后在5kminival数据集上进行测试。我们还报告了我们对COCO测试开发方法的最终结果,该方法没有公开的标签。DetNet:目标检测7图二. DetNet(D)和基于DetNet的特征金字塔网络(E)的详细结构。DetNet中使用的不同瓶颈块在(A,B)中示出。最初的瓶颈在(C)中示出。DetNet在阶段4之前遵循与ResNet相同的设计,而在阶段4之后保持空间大小(例如,阶段5和6)。我们使用标准的coco指标来评估我们的方法,包括AP(交叉-联合阈值的平均精度)、AP 50、AP 75(使用不同IoU阈值的AP)以及APS、AP M、AP L(不同尺度的AP:小、中、大)。4.1检测器训练和推理根据Detectron4存储库提供的训练策略[7],我们的检测器在8个PascalTITAN XP GPU上进行端到端训练,通过同步SGD进行优化,权重衰减为0.0001,动量为0.9。每个小批量有2个图像,因此有效批量大小为16。我们将图像的短边调整为800像素,长边限制为1333像素,以避免大量的我们通过在图像的右下角填充零来将mini-batch中的图像填充到相同的大小我们使用Detectron [7]中使用的典型“2x”训练设置。在训练开始时,学习速率被设置为0.02,然后在120k和160k迭代之后降低0.1倍,最后在180k迭代时终止。我们还通过使用较小的学习率来0的情况。02 × 0。对于前500次迭代,为3。4https://github.com/facebookresearch/Detectron8李泽明所有实验都使用ImageNet预训练的权重进行初始化。我们固定骨干网络中的阶段1的参数。批次归一化在检测器微调期间也是固定的。我们只采用了一个简单的水平翻转数据增强。至于提案生成,除非明确说明,我们首先挑选12000个得分最高的提案,然后进行非最大抑制(NMS)操作,以获得最多2000个ROI进行训练。在测试期间,我们使用6000/1000(NMS的6000最高分数,NMS后的1000 RoI)设置。我们还涉及Mask R-CNN中使用的流行RoI-Align技术[9]。4.2骨干训练与推理根据ResNext [38]提供的大多数超参数和训练设置,我们通过8个按照测试的标准评估策略,我们报告了来自具有256个较短边的图像的单个224x224中心裁剪的误差。4.3主要结果我们采用具有ResNet-50主干的FPN作为我们的基线,因为FPN是许多其他视觉任务的突出检测器,例如实例分割和骨架[9]。为了验证DetNet对FPN的有效性,我们提出了DetNet-59,与ResNet-50相比,DetNet-59涉及额外的阶段。更多设计细节见第3节。然后,我们用DetNet-59替换ResNet-50主干,并保持其他结构与原始FPN相同我 们 首 先 在 ImageNet 分 类 上 训 练 DetNet-59, 结 果 如 表 1所 示 。DetNet-59具有23.5%的top-1错误,代价是4.8G FLOPs。然后,我们用DetNet-59训练FPN,并将其与基于ResNet-50的FPN进行比较。从表1中,我们可以看到DetNet-59比ResNet-50具有更好的性能(mAP增加超过2个点)。骨干分类FPN结果Top1错误翻牌, 地图 AP50 AP75 APs APm APlResNet-5024.13.8G37.960.041.2 22.9 40.6 49.2DetNet-5923.54.8G40.2 61.743.7 23.9 43.2 52.0ResNet-10123.07.6G39.862.043.5 24.1 43.4 51.7DetNet-10123.07.9G41.862.845.7 25.4 45.2 55.1表1. FPN中使用的不同主链的结果。我们首先报告ImageNet分类的标准Top-1错误(错误越低,分类的准确性越好FLOPs表示计算复杂度。我们还说明了FPN COCO的结果,以调查这些骨干对象检测的有效性。由于DetNet-59比ResNet-50具有更多的参数(因为我们涉及FPNP6的额外阶段),因此一个自然的假设是改进是DetNet:目标检测9主要是因为参数较多。为了验证DetNet-59的有效性,我们还使用具有7.6G FLOPs复杂度的ResNet-101来训练FPN,结果是39.8地图ResNet-101比DetNet-59具有更多的FLOP,并且仍然比DetNet-59产生更低的mAP。我们进一步增加了基于DetNet-101的FPN实验。具体而言,DetNet-101在ResNet阶段4中具有20个(DetNet-59中为6个)重复瓶颈块。正如预期的那样,DetNet-101的结果优于ResNet-101,这验证了DetNet比ResNet更适合作为对象检测的骨干网络。由于DetNet是直接为对象检测而设计的,为了进一步验证DetNet的优势,我们从头开始基于DetNet-59和ResNet-50训练FPN。结果示于表2中。请注意,我们在训练期间使用多GPU同步批量归一化,如[28]中所示,以便从头开始训练。从结果中得出结论,DetNet-59仍然优于ResNet-501.8点,这进一步验证了DetNet更适合于对象检测。骨干地图 AP50 AP75 APs APm APlResNet-50从零DetNet-59从零开始34.536.355.256.537.739.320.422.036.738.444.546.9表2.FPN在不同的骨干上产生,这些骨干是从头开始训练的 由于我们不需要主动地对图像进行预处理,因此我们不能直接地提供用于对象检测的备份能力。4.4结果分析在本小节中,我们将分析DetNet如何改进对象检测。在对象检测评估中存在两个关键点:平均查准率(AP)和平均查全率(AR)。AR意味着我们能找出多少物体,AP意味着有多少对象被正确定位(用于分类的正确标签)。 通常在不同的IoU阈值上评估AP和AR,以验证对象定位的回归能力。IoU越大,回归需要的精度越高。AP和AR还在不同范围的边界框区域(小、中和大)上进行评估,以找到各种边界框区域上的细节结果。物体的尺度首先,我们研究DetNet对检测精度的影响。我们评估了不同IoU阈值和对象规模的性能,如表3所示。DetNet-59在大对象定位的性能上有令人印象深刻的改进,在AP85@large中带来了5. 5(40. 0 vs 34. 5)点的增益原因是原始的基于ResNet的FPN在更深的特征映射中有很大的进步,大对象可能难以获得准确的回归。10李泽明模型鳞片地图 AP50 AP60 AP70 AP80 AP85ResNet-50 所有鳞片中小大37.922.940.649.260.040.163.955.135.559.068.247.228.051.260.833.117.535.746.622.110.423.372.234.5DetNet-59 所有鳞片中小大40.223.943.252.061.741.865.857.036.861.269.549.629.853.66336.217.739.951.425. 810.527.373.140.0表3.不同IoU阈值和不同边界框尺度下FPN的平均精度(AP)比较。 AP50是评估分类能力的有效度量。 AP85需要边界框预测的准确位置。 因此,它验证了我们的方法的回归能力。我们还说明了AP在不同的尺度,以捕捉骨干的高分辨率特征图的影响。模型鳞片MarAR50 AR60 AR70 AR80 AR85ResNet-50 所有鳞片中小大52.835.556.067.080.574.753.879.290.964.343.368.780.346.828.750.563.134.260.018.784.936.295.050.2DetNet-59 所有鳞片中小大56.139.259.570.183.177.859.482.591.867.647.372.682.951.029.555.669.138.966.419.687.441.295.456.3表4. FPN在不同IoU阈值和不同边界框尺度上的平均召回率(AR)的比较。AR50是一个有效的指标,用于显示我们找到了多少合理的边界框(类不可知)。AR85意味着盒子位置的准确性。我们还研究了DetNet的影响,寻找小对象。如表4所示,我们对不同IoU阈值和尺度下的平均召回率进行了详细统计。我们得出如下表:– 与ResNet-50相比,DetNet-59在寻找丢失的小物体方面更强大,小物体的AR50增益为6.4分(66.4 vs 60.0)DetNet比ResNet在更深的阶段保持更高的分辨率,因此我们可以在更深的阶段找到更小的对象由于我们使用上采样路径-图中的方式凌晨1浅层还可以涉及用于寻找小对象的上下文线索然而,ResNet- 50和DetNet-59之间的AR 85@small相当(18.7 vs 19.6)这是合理的。DetNet不用于小对象定位,因为基于ResNet的FPN已经使用了大特征图对于小物件。– DetNet对于大型对象定位很好,在AR85中对于大型对象的定位为56.3(vs 50.2)。但是,大对象中的AR50并没有变化DetNet:目标检测11太多(95.4 vs 95.0)。一般来说,DetNet会找到更准确的大对象,而不是丢失大对象。图三. DetNet-59-NoProj的详细结构,采用图中的模块。图1A到分裂级6(而原始DetNet-59采用图1A)。1 B至分离级6)。我们设计DetNet-59-NoProj来验证涉及新的语义阶段作为对象检测的FPN的重要性。4.5讨论如第3节所述,DetNet的关键思想是专门为对象检测设计的新型DetNet-59基于像特征金字塔网络这样的突出对象检测器,在保持高空间分辨率的同时遵循与FPN完全相同的级数要讨论的骨干对象检测的重要性,我们首先调查的阶段的影响。由于DetNet-59的第6级具有与第5级相同的空间大小,因此自然的假设是DetNet-59仅仅涉及更深的第5级而不是产生新的第6级。为了证明DetNet-59确实涉及额外的阶段,我们仔细分析了DetNet-59设计的细节。如图2 B. DetNet-59采用具有简单的1x 1卷积的扩张瓶颈作为投影层来分割阶段6。它与传统ResNet有很大的不同,当特征图的空间大小不变时,投影将是瓶颈结构中的简单恒等式(图1)。2A)而不是1x1卷积(图2B)。我们打破这个惯例。我们声称,即使空间大小不变,1x1卷积投影的瓶颈也能有效地创建新的阶段。为了证明我们的想法,我们涉及DetNet-59-NoProj,它是通过删除1x 1投影卷积修改的详细结构如图所示。3.第三章。DetNet-59之间仅有微小差异(红细胞)(图11)。2D)和DetNet-59-NoProj(图(3)第三章。首先,我们在ImageNet分类中训练DetNet-59-NoProj,结果如表5所示。DetNet-59-NoProj的Top1误差比DetNet-59高0.5。然后,我们基于表5中的DetNet-59-NoProj训练FPN。DetNet-59在物体检测方面优于DetNet-59-NoProj超过1个点。12李泽明实验结果验证了涉及一个新的阶段作为FPN用于对象检测的重要性。当我们使用模块图。在我们的网络中,输出特征图与输入特征图没有太大的不同,因为输出特征图只是原始输入特征图及其变换的总和。因此,为网络创造一个新颖的语义舞台并不容易。如果采用图1中的模块2 B,它将在输入和输出特征图之间更加发散,这使我们能够创建一个新的语义阶段。巴克博恩分类FPN结果Top1错误FLOPs 地图 AP50 AP75 APs APm APlDetNet-59DetNet-59-NoProj23.524.04.8G4.6G40.239.161.761.343.742.123.923.643.242.052.050.1表5. DetNet-59和DetNet-59-NoProj.我们报告了ImageNet分类和FPN COCO检测的结果。DetNet-59始终优于DetNet-59-NoProj,这验证了主干设计(相同语义阶段)与FPN的重要性巴克博恩分类FPN结果Top1错误翻牌, 地图 AP50 AP75 APs APm APlDetNet-59ResNet-50-扩张23.5–4.8G6.1G40.239.061.761.443.742.423.923.343.242.152.050.0表6. DetNet-59和ResNet-50上的FPN结果比较-扩展以验证预训练骨干对检测的重要性ResNet-50-dilated意味着我们基于ResNet-50权重来微调检测,同时在ResNet-50的时间段中涉及dilated卷积。由于ResNet-50-dialated-d不能直接用于图像分类,因此我们不打算使用R es Net-50-dialated-d的拓扑结构另一个自然的问题是“如果我们训练用ResNet-50参数初始化的FPN,并且在检测或检测期间扩张ResNet-50的第5阶段(对于实际情况,我们不被称为ResNet-50-dilat d),结果是什么”。为了说明预训练骨干对于检测的重要性,我们在表6中比较了基于DetNet-59ResNet-50-dilated比DetNet-59有更多的FLOP,但性能比DetNet-59低。因此,我们已经表明了直接训练基础模型对目标检测的重要性。4.6与最新技术水平的比较我们在MSCOCO [23,20]检测测试开发数据集上评估了基于DetNet-59的FPN,并将其与表7中列出的最新最先进的方法进行了DetNet:目标检测13见图4。基于DetNet-59的FPN的说明性结果。图五、基于DetNet-59的 Mask R-CNN的说明性结果注意测试开发数据集与消融实验中使用的小型确认数据集不同。它没有公开的标签,并在服务器上进行评估没有任何花里胡哨的东西,我们简单而高效的主干在COCO对象检测上达到了新的最先进水平,甚至优于ResNet-101主干的值得注意的是,DetNet-59只有4.8G FLOP复杂度,而ResNet-101有7.6G FLOP复杂度。我们参考Mask R-CNN [9]中提供的原始FPN结果通过使用Detectron [7]存储库,它应该更高,这将为FPN-ResNet-101生成39.8 mAP。为了验证我们方法的泛化能力,我们还评估了DetNet-59用于基于Mask R-CNN的MSCOCO实例分割结果见表。8用于测试开发。感谢我们的DetNet59令人印象深刻的能力,我们在实例分割方面也获得了新的最先进的结果。14李泽明模型中国[3]骨干ResNet-101mAP AP50 AP75 APs APm APl24.6FCIS [19]+ OHEM [34] ResNet-101-C5-扩张29.2FCIS+ [19] +OHEM ResNet-101-C5-扩张33.644.349.554.558.024.8--4.77.1-25.943.631.350.0--Mask R-CNN [9]Mask R-CNNResNet-101DetNet-5935.737.1六十37.8 15.5 38.1 52.439.6 18.6 39.0 51.3模型骨干mAP AP50 AP75 APs APm APlSSD513 [24]ResNet-10131.250.433.3 10.2 34.5 49.8DSSD513 [24,6]ResNet-10133.253.335.2 13.0 35.4 51.1更快的R-CNN+ [9]ResNet-10134.955.737.4 15.6 38.7 50.9更快的R-CNN G-RMI5inception-ResNet-v2 34.755.536.7 13.5 38.1 52.0RetinaNet [22]ResNet-10139.159.142.3 21.8 42.7 50.2FPN [9]ResNet-10137.359.640.3 19.8 40.2 48.8FPNDetNet-5940.3 62.143.8 23.6 42.6 50.0表7.我们的方法和最先进的MSCOCO测试开发数据集之间的对象检测结果的比较。基于我们简单有效的主干DetNet-59,我们的模型优于所有以前的最先进的。值得注意的是,DetNet-59以更低的FLOP产生更好的结果。表8.我们的方法和其他最先进的MSCOCO测试开发数据集之间的实例分割结果的比较受益于DetNet-59,我们实现了一个新的国家的最先进的实例分割任务。一些结果在图1中可视化。4和图5中所示。具有DetNet-59骨架的FPN的检测结果示于图1中。4.具有DetNet-59主干的Mask R-CNN的实例分割结果如图5所示我们只说明了边界框和实例分割不小于0.5分类分数。5结论在本文中,我们设计了一种新的骨干网络,专门用于对象检测任务。传统上,骨干网络是为图像分类任务而设计的,并且在转移到对象检测任务时存在间隙。为了解决这个问题,我们提出了一种新的骨干结构称为Det- Net,这不仅是优化的分类任务,但也本地化友好。基于COCO基准的目标检测和物体分割已经取得了令人印象深刻的结果。5http://image-net.org/challenges/talks/2016/GRMI-COCO-slidedeck.pdfDetNet:目标检测15引用1. Chen,L.C.,帕潘德里欧,G.,科基诺斯岛墨菲K Yuille,A.L.:基于深度卷积网和全连接crfs的语义图像分割arXiv预印本arXiv:1412.7062(2014)2. Chollet,F.:Xception:使用深度可分离卷积的深度学习。arXiv预印本arXiv:1610.02357(2016)3. Dai,J.,他,K.,孙杰:通过多任务网络级联的实例感知语义分割在:IEEE计算机视觉和图像处理会议论文集中。pp. 31504. Dai,J.,Qi,H.,Xiong,Y.,李,Y.,张,G.,Hu,H.,魏云:可变形对流网络。arXiv预印本arXiv:1703.06211(2017)5. Dalal,N.,Triggs,B.:用于人体检测的定向梯度直方图。计算机视觉与模式识别,2005年。CVPR 2005。IEEE计算机科学委员会。 vol. 第1页。886-893 05The Dog(2005)6. Fu,C.Y.,刘伟,Ranga,A.,Tyagi,A.,Berg,A.C.:Dssd:解卷积单次激发探测器。arXiv预印本arXiv:1701.06659(2017)7. Gir shick,R., RADOSA VV VVIC,I., G.,G., 做吧,PHe,K. :检测。https://github.com/facebookresearch/detectron(2018)8. Girshick,R.B.,Felzenszwalb,P.F.,McAllester,D.:区别性训练的可变形零件模型,版本5(2012)9. He, K. ,G., G. ,做 吧 ,PGirshi ck , R. : Maskr-cnn 。 arXiv :1703.06870(2017)10. 他,K.,张,X.,Ren,S.,孙杰:用于图像识别的深度残差学习IEEE计算机视觉和模式识别会议论文集。pp. 77011. Howard,A.G.,Zhu,M.,陈伯,Kalenichenko,D.王伟,Weyand,T.,安德里托,M.,Adam,H.:Mobilenets:用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv:1704.04861(2017)12. 胡 , J , Shen , L. , Sun , G. : 压 缩 - 激 励 网 络 。 arXiv 预 印 本 arXiv :1709.01507(2017)13. Huang,G.,刘先生:密集连接的卷积网络14. 黄,J.,Rathod,V.,孙角,澳-地Zhu,M.,Korattikara,A.,Fathi,A.,费希尔岛Wojna,Z.,Song,Y.,Guadarrama,S.,等:现代卷积对象检测器的速度/精度权衡arXiv预印本arXiv:1611.10012(2016)15. Iandola,F.N.,汉,S.,Moskewicz,M.W.,Ashraf,K.,戴利,W.J.,Keutzer,K.:Squeezenet:Alexnet级精度,参数减少50倍,…0.5 mb模型大小。arXiv预印本arXiv:1602.07360(2016)16. Ioffe,S.,Szegedy,C.:批次标准化:通过减少内部协变量偏移来加速深度 网 络 训 练 。 国 际 机 器 学 习 会 议 ( International Conference on MachineLearning)pp. 44817. Krizhevsky,A.,萨茨克弗岛Hinton,G.E.:使用深度卷积神经网络的图像网分类。在:神经信息处理系统的进展。pp. 109718. 李,Y.,他,K.,孙,J.,等:R-fcn:通过基于区域的全卷积网络进行对象检测。在:神经信息处理系统的进展。pp. 37919. 李,Y.,Qi,H.,Dai,J.,吉,X.,魏云:完全卷积的实例感知语义分割。在:IEEE Conf.计算机视觉与模式识别(CVP R)pp. 235916李泽明20. 林,T. 是的, 我 会的,P。 : Msc o coapi.https ://github. 公 司m/pdollar/co co(2016)21. 林 , T. 是 的 , 做 吧 , PGir shi ck , R. , He , K. , Hariharan , B.Belongie,S. :用于对象检测的Fetur金字塔网络。arXiv预印本arXiv:1612.03144(2016)22. 林,T. 是的, 再见,P., Gir shi ck,R., He,K., 我会的,P。:用于检测阻塞的频率损失。arXiv预印本arXiv:1708.02002(2017)23. 林,T. 是的, 我是M
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功