没有合适的资源?快使用搜索试试~ 我知道了~
重温RCNN:唤醒更快RCNN的分类能力Bowen Cheng1、Yunchao Wei1、HonghuiShi2、Rogerio Feris2、Jinjun Xiong2、ThomasHuang11伊利诺伊大学香槟分校,伊利诺伊州,美国{bcheng9,yunchao,t-huang1}@ illinois.edu2IBM T.J.美国纽约沃森研究中心石红辉@ ibm.com{rsferis,jinjun} @ us.ibm.com抽象。最近基于区域的对象检测器通常在共享特征提取网络之上构建有单独的分类和定位分支。在本文中,我们分析了国家的最先进的检测器的故障情况下,并观察到,最硬的假阳性结果的分类,而不是本地化。我们推测:(1)由于分类和定位的特征学习目标不匹配,共享特征表示不是最优的;(2)多任务学习有帮助,但多任务损失的优化可能导致单个任务的次优;(3)对不同尺度引线的感受野大到小对象的冗余上下文信息。 我们展示了一个简单,有效,广泛适用的解耦分类细化(DCR)网络的检测器分类能力的潜力。DCR从Faster RCNN中的基本分类器中采样硬假阳性,并训练RCNN风格的强分类器。实验显示了PASCAL VOC和COCO的最新结果,没有任何花哨。关键词:目标检测1介绍具有卷积神经网络(CNN)的基于区域的方法[2,10,11,17- 20,27,31,33]具有在节点检测中的快速增长。特征提取网络通常在共享特征提取网络的顶部构建有单独的分类和定位分支,并使用多任务损失进行训练。特别是,Faster RCNN [27]以显着的效率和准确性学习了第一个端到端两阶段检测器之一许多后续工作,如R-FCN [3],特征金字塔网络(FPN)[21],可变形ConvNets(DCN)[4],在准确性方面一直领先于PASCAL VOC [6]和COCO [23]数据集的流行检测基准然而,很少有人提出研究更快的RCNN风格检测器中分类能力的全部潜力通讯作者2B. 郑,Y.Wei,H.什河,巴西-地Feris,J.Xiong和T.黄地图30300000000087868205000000852000841500 83821000815008000.0-0.1 0.1-0.2 0.2-0.3 0.3-0.4 0.4-0.5 0.5-0.6 0.6-0.7 0.7-0.8 0.8-0.9 0.9-1.0790.00.10.20.30.40.50.60.70.80.91.0假阳性样本的置信度(a)(b)第(1)款Fig. 1. (a)不同范围内假阳性数目的比较。(b)通过逐步去除假阳性来比较mAP增益;从右到左,检测器表现更好,因为根据它们的置信度分数去除了假阳性。为了回答这个问题,在本文中,我们首先研究影响Faster RCNN性能如图1(a)所示,我们使用Faster RCNN在PASCAL VOC 2007上进行对象检测,并计算不同置信度区间(蓝色)的误报检测数量。虽然只有一小部分假阳性预测具有高置信度分数,但这些样本导致平均精度(mAP)的显著性能下降。特别是,我们使用Faster RCNN对mAP中的潜在增益进行了分析:如图1(b)所示,给定来自Faster RCNN的检测结果和置信度分数阈值,我们假设预测置信度分数高于该阈值的所有假阳性都被正确分类,并且我们报告相应的假设mAP。很明显,通过纠正所有假阳性,Faster RCNN可以假设达到86。8%,而不是79。8%。此外,即使我们只消除高置信度的误报,如红色框所示,我们仍然可以将检测性能显著提高3。0%mAP,这是现代物体检测系统所期望的但难以获得的增强上述观察促使我们的工作减轻误报的负担,并提高基于更快RCNN的检测器的分类能力通过仔细检查Faster RCNN产生的误报,我们推测这种错误主要是由于三个原因:(1)用于分类和定位两者的共享特征表示对于区域提议分类可能不是最佳的,特征学习中的不匹配目标导致Faster RCNN的分类能力降低;(2)多任务学习一般有助于提高对象检测器的性能,如Fast RCNN [10]和Faster RCNN所示,但联合优化也导致可能的次优以平衡多个任务的目标,并且无法直接利用单个任务的全部潜力;(3)深度CNN中的接收域(如ResNet-101 [15])很大,整个图像对于任何给定的区域提案通常都被完全覆盖。这样大的感受野可能会导致劣质的分类能力,通过引入冗余的上下文信息的小对象。更快的RCNN86. .885. .585.285.085.084.684.784.584.384.384.183.884.183.783.383.482.582.881.879.8误测数量……再访RCNN3根据上述论点,我们提出了一种简单而有效的方法,称为解耦分类细化(DCR),以消除高分误报,提高区域建议分类结果。DCR在Faster RCNN风格的检测器中解耦分类和定位任务它从基础分类器(例如Faster RCNN)获取输入,并使用RCNN风格的网络来细化分类结果DCR从基本分类器中采样硬假阳性,即具有高置信度分数的假阳性,然后训练更强的校正分类器用于分类细化。设计上,我们在Faster RCNN和DCR模块之间不共享任何参数,因此DCR模块不仅可以利用区域建议网络(RPN)和边界框回归任务的多任务学习改进结果,还可以更好地优化新引入的模块以解决具有挑战性的分类案例。我们基于不同的Faster RCNN风格的检测器(即更快的RCNN,可变形 ConvNets , FPN ) 和 基 准 测 试 ( 即 PASCAL VOC 2007& 2012 ,COCO),以证明我们提出的简单解决方案在通过减少硬误报来提高检测性能方面的有效性。如图1(a)所示,我们的方法可以显着减少硬误报的数量,并将检测性能提高2。PASCAL VOC 2007的mAP超过强基线7%,如图1(b)所示。我们所有的实验结果表明,我们提出的DCR模块可以在各种检测基线上提供一致的改进,如图2所示。我们的贡献有三个方面:1. 我们分析了基于区域的对象检测器的错误模式,并制定了可能导致这些故障情况的假设。2. 我们提出了一组设计原则,以提高更快的RCNN风格的对象检测器的分类能力,以及基于所提出的设计原则的DCR模块。3. 我们的DCR模块在流行的基准测试中始终为强对象检测器带来显著的性能提升特别地,遵循常规做法(ResNet-101作为主干),我们实现了84的mAP。0%,81。2%的经典PASCAL VOC 2007年和2012年,分别为43。在更具挑战性的COCO2015测试开发上,这是最新的最先进技术。2相关工作最近的基于CNN的对象检测器通常可以被分类为两阶段和单阶段。最早的两级探测器之一是RCNN [11],其中选择性搜索[29]用于生成对象候选的一组区域建议,然后是深度神经网络来提取每个区域的特征向量,然后是SVM分类器。SPPNet [14]通过共享特征提取阶段并使用空间金字塔池化来为每个提议提取固定长度特征来提高RCNN的快速RCNN [10]通过引入可区分的ROI池操作来改进SPPNet,4B. 郑,Y.Wei,H.什河,巴西-地Feris,J.Xiong和T.黄VOC 20078584838281807978778284.081807978777675VOC20124581.243413937353331292725COCO2015测试开发43.141.740.738.838.135.2三十三点九30.5FasterRCNN可 变形Faster RCNNFasterRCNN可变形Faster RCNNFasterRCNN可 变形Faster RCNNFPN可变形FPN我们的基线图二. 我们的方法和基线在不同的Faster RCNN系列和基准方面的比较。端到端训练网络。更快的RCNN [27]将区域提案步骤嵌入到区域提案网络(RPN)中,进一步减少提案生成时间。R-FCN [3]提出了一种位置敏感ROI池(PSROI Pooling),可以在分类分支和边界框回归分支之间共享计算。Deformable ConvNets(DCN)[4]进一步添加了可变形卷积和可变形ROI池化操作,这些操作使用学习的偏移来调整朴素卷积和ROI池化中每个采样仓的位置,以更快的RCNN。特征金字塔网络(FPN)[21]添加了一个具有横向连接的自上而下的路径更精细的特征图对于检测小物体更有用,因此使用FPN观察到小物体检测的显著提高。目前大多数最先进的对象检测器都是基于Faster RCNN的两阶段检测器,因为两阶段对象检测器产生更准确的结果并且更容易优化。然而,两级检测器速度慢,并且由于ROI池化操作而需要非常大的输入大小为了实现实时对象检测器,一阶段方法,如OverFeat[28],SSD [9,24]和YOLO [25,26],直接预测对象类别和位置虽然单阶段方法比两阶段方法快得多,但它们的结果较差,并且它们需要更多的额外数据和广泛的数据增强来获得更好的结果。我们的论文遵循两阶段检测器的方法[10,11,27],但主要集中在分析检测器出错的原因。分类器级联分类器级联的方法通常使用来自先前分类器的错误分类的示例来训练阶段分类器。这在过去已经被大量用于对象检测。用于面部检测的Viola Jones算法[30]使用Adaboost [8]的硬级联,其中强区域分类器由许多弱分类器的级联构建,这些弱分类器关注不同的特征,如果任何弱分类器拒绝窗口,则将不再有处理。软级联[1]改进[30]基于所有先前分类器的输出构建每个弱分类器。使用的可变形零件模型(DPM)[7]一个级联的部分方法,其中根过滤器上的粗特征覆盖79.9七十七。.479八十二点五81.479.8地图再访RCNN5(a)(b)(c)第(1)款图三. 硬假阳性的证明。结果由具有2个全连接层(2fc)作为检测器头的Faster RCNN生成[21,27],红色框是地面实况,绿色框是分数高于0.3的硬假阳性;(a)框仅覆盖具有高置信度的对象的一部分;(b)由于相似对象而导致的不正确分类(c)错误分类的背景将整个目标与一些局部滤波器在精细特征上相结合,具有更高的定位精度。最近,Li et al.[16]提出了用于快速人脸检测的卷积神经网络级联。本文提出了一种类似于分类器级联思想的方法,但在以下几个方面有所不同分类器级联的目的是产生一个有效的分类器(主要是在速度)级联弱,但快速分类器和弱分类器被用来拒绝的例子。相比之下,我们的方法旨在提高整体系统的准确性,其中正好有两个强分类器级联,它们一起工作以做出更准确的预测。最近,Cascade RCNN [2]提出了以级联方式训练对象检测器,逐渐增加IoU阈值,以分配地面真实标签来对齐测试度量,即。IOU为0.5:0.05:0.95的平均mAP。3更快的RCNN更快的RCNN会产生3种典型的硬误报,如图3所示:(1)分类是正确的,但是预测框和地面实况之间的重叠具有低IoU,例如<0。图3(a)中示出了图5中所示的实施例。由于平移不变性,这种类型的假阴性框通常覆盖最具区分性的部分,并且具有足够的信息来预测正确的类(2)预测框的不正确分类,但具有基础事实的IoU足够大,例如在图3(b)中。它的发生主要是因为一些类共享相似的区分部分,并且预测的框与真实对象不对齐,并且可能仅覆盖混淆的区分部分。另一个原因是检测器中使用的分类器不够强,无法区分两个不同的分类器。 (3)检测是一种“一致性发现”库,即与地面真值框没有交集或交集很小,但分类器的一致性发现很大,即:G. 在图3(c)中。在这种情况下,大部分的backg roundpattern这种情况的另一个原因是,感受野是固定的,对于一些盒子来说它太大了,以至于它覆盖了其感受野中的实际对象6B. 郑,Y.Wei,H.什河,巴西-地Feris,J.Xiong和T.黄在图3(c)中,错误分类的背景接近地面真值框(左船),并且大的感受野(在ResNet- 101中覆盖超过1000个像素)可以“看到”以使我们能够更好地处理这些数据。基于以上分析,我们可以得出结论,硬误报主要是由嵌入在检测器中的次优分类器原因可能是:(1)分类和定位之间的特征共享,(2)优化分类器和定位器的数量,以及(3)检测器的概率不随对象的大小而特征共享的问题检测器主干通常是从图像分类模型中改编的,并在大型图像分类数据集上进行预训练这些主干最初被设计为学习用于分类的尺度不变特征 尺度不变性通过添加子采样层来实现,例如最大池化和数据扩充,例如 随机作物检测器将分类分支和定位分支放置在同一主干之上,然而,分类需要平移不变特征,而定位需要平移协变特征。在微调期间,本地化分支将迫使主干逐渐学习翻译协变特征,这可能潜在地降低分类器的性能。优化问题更快的RCNN系列是用一个特征提取器作为主干和两个任务指定的分支构建的,用于对区域进行分类,另一个用于定位正确的位置。将用于分类和定位的损失函数分别表示为Lcls和Lbbox然后,Faster RCNN系列的优化是通过最小化两个损失函数之和来解决多任务学习(MTL)问题:Ldetection=Lcls+Lbbox。然而,通过同时考虑两个损失的总和而不是它们中的每一个,优化可能收敛到两个任务的折衷次优最初,这样的MTL方式被发现是有效的,并且在Fast(er)RCNN工作中观察到对状态学习的改进然而,用于对象检测的MTL并没有在最近强大的分类主干(例如 ResNets)下进行研究。具体地,我们假设MTL可以基于弱骨干(例如AlexNet或VGG16)很好地工作随着主干网的日益强大,主干网内强大的分类能力可能无法得到充分利用,MTL成为瓶颈。深度卷积神经网络具有固定的感受野。对于图像分类,输入通常被裁剪和调整大小以具有固定的大小,例如224× 224,并且网络被设计为具有比输入区域稍大的感受野。然而,由于上下文是在区分的情况下被压缩和阻塞的,因此“有效的压缩文件”覆盖了所阻塞的内容。与图像分类任务不同,其中单个大对象位于中心检测任务中的对象在图像的任意位置上具有各种尺寸再访RCNN7图4.第一章左:基础检测器(例如更快的RCNN)。右图:我们提出的解耦分类细化(DCR)模块。在Faster RCNN中,引入ROI池化以将对象从2-D卷积特征图裁剪为用于以下分类的1-D固定大小表示,这导致固定的感受野(即,网络关注输入图像的固定大小窗口)。在这种情况下,对象具有各种大小,并且固定的感受野将引入不同量的上下文。对于小对象,上下文可能太大而使网络无法聚焦于对象,而对于大对象,感受野可能太小而使网络无法观看对象的一部分。虽然已有的研究通过聚合不同感受野的特征来引入多尺度特征,但与各种尺寸的对象数量相比,尺寸的数量仍然太少。4重新审视RCNN以改进更快的RCNN在本节中,我们仔细回顾了经典的RCNN [11]方法,并给出了一个详细的分析,其中RCNN可以作为一个“组件”来实现更快的基于我们的发现,我们提供了一种简单而有效的解耦分类细化模块,其可以容易地添加到任何当前最先进的对象检测器以提供性能改进。4.1学习RCNN设计我们用ResNet-50作为主干训练修改后的RCNN,并将更快的RCNN预测作为区域建议。我们发现,随着RCNN,检测结果恶化了30%以上(从79.8%到44.7%)!由于RCNN不修改框坐标,因此较差的结果意味着较差的分类。我们发现,许多与对象有小交集的盒子被分类为该对象,而不是Faster RCNN预测的背景。基于这一发现,我们假设RCNN的缺点主要源于分类模型是在不知道对象位置的情况下预先训练的以来回归器 分类器1分类器2ROI池建议识别假阳性RPNPred:自行车 GT:mbikeCNN层作物基本物体探测器修正分类器特征图CNN层8B. 郑,Y.Wei,H.什河,巴西-地Feris,J.Xiong和T.黄ResNet-50在ImageNet上以多裁剪方式进行训练,无论裁剪与对象的交集有多少,都鼓励分类器将cl处的th预测为s。这将导致RCNN中的采样策略被简化为用于预测分类的“截断”,这就是为什么RCNN需要仔细调整的采样策略的即FG与BG的比例为1:3。简单地说,我们感兴趣的是RCNN是否是“ST R N G”E N O C或R R R C T H R D N E G A V E S。我们使用一种改进的方法,将RCNN分类得分与更快的RCNN分类得分相乘,并观察到1.9%的提升(从79.8%到81.7%)!因此,我们认为RCNN可以在以下意义上被视为更快RCNN的补充:更快RCNN的分类器较弱,但知道对象位置,而RCNN的分类器基于我们的研究结果,我们提出了以下三个原则来设计更好的对象检测器。当前检测器仍然将分类头和定位头放置在同一主干上,因此我们提出分类头和定位头不应共享参数(如第3节中给出的分析),从而导致RCNN使用模式的解耦特征。解耦优化RCNN还解耦了对象建议和分类的优化。在本文中,我们做了一个小的变化,优化。我们提出了一种新的两阶段训练,其中,不是优化分类和定位损失的总和,而是优化分类和定位损失的级联,L检测= [Lcls+Lbbox,Lcls],其中每个条目在两个步骤中被独立地优化。自适应感受野RCNN最重要的优点是其感受野始终覆盖整个ROI,即通过裁剪和调整每个建议的大小固定尺寸。我们同意,上下文信息可能是重要的精确检测,但是,我们的conjunction,不同数量的背景介绍了固定的接受领域可能会导致不同的性能,以不同大小的对象。它导致我们最后提出的原则,检测器应该是一个自适应的感受野,可以根据它所关注的对象的大小而改变。在这一原则下,为每个对象引入的上下文应该与其大小成比例,但如何确定上下文的数量仍然是一个有待研究的问题。自适应感受野的另一个优点是其特征与对象很好地对准。当前的检测器在通常具有大步幅的高级、粗略特征图处进行预测,例如 由于子采样操作,在更快的RCNN中使用16或32的步幅。子采样引入未对准的特征,例如,步幅32的特征图上的一个单元移位导致图像上的32个像素移位,并且使预测有缺陷。利用自适应感受野,检测器总是关注整个对象,从而产生对齐的特征以进行预测。RCNN为我们提供了一种实现自适应感受野的简单方法,但如何找到一种更有效的方法来实现自适应感受野仍然是一个值得研究的问题。再访RCNN94.2解耦分类精化(DCR)遵循这些原则,我们提出了一个DCR模块,可以轻松地扩展到更快的RCNN以及任何对象检测器,以构建更强大的检测器。整个流水线如图4所示。左部分和右部分分别是原始的Faster RCNN和我们提出的DCR模块。特别地,DCR主要由裁剪调整层和强分类器组成。裁剪调整层接受两个输入,原始图像和Faster RCNN生成的框,在原始图像上裁剪框,并在将它们调整为预定义大小后将它们馈送到强分类器。DCR模块(分类器2)的区域分数通过逐元素乘积与Faster RCNN(分类器1)的区域分数聚合在本文中,这两个部分是单独训练的,并且仅在测试时间期间将分数合并。DCR模块不与检测器主干共享任何功能以保持以分类为目标的平移不变性特征的质量。此外,在DCR模块和基本检测器之间不存在误差传播,因此一个损耗的优化不影响另一这进而导致解耦模式,其中基础检测器更专注于定位,而DCR模块更专注于分类。DCR模块引入自适应的感受野由一个预定义的大小的反射盒注意,此处理非常类似于将ROI池从最终特征图移动到图像,但是,它与在特征图上执行ROI池有很大不同即使最终输出特征图大小相同,来自ROI池化的特征也会看到更大的区域,因为嵌入图像中的对象具有更丰富的上下文。我们通过直接在图像上裁剪对象来截断上下文,并且网络无法看到对象区域之外的上下文。4.3培训由于没有错误从DCR模块传播到Faster RCNN,我们以两步的方式训练我们的对象检测器。首先,我们训练Faster RCNN以收敛。然后,我们在从Faster RCNN的硬误报中采样的小批量上训练我们的DCR模块。DCR模块的参数由ImageNet数据集预训练[5]。我们遵循以图像为中心的方法[10]对N个图像进行采样,总小批量大小为R个盒子,即每个图像R/N个盒子。我们在整个实验中使用N= 1和R= 32。我们使用不同的采样启发式,我们不仅对前景和背景框进行采样,而且对硬误报进行均匀采样。因为我们不想应用任何先验知识对分类器施加不必要的偏见然 而,我们观 察到,来自 同一图像的盒 子因此,我 们使用ImageNet训练集统计数据修复Batch Normalization层。新添加的线性分类器(全连接层)设置为基本学习率的10倍,因为我们希望保留在ImageNet数据集上学习的平移不变性特征。10B. 郑,Y.Wei,H.什河,巴西-地Feris,J.Xiong和T.黄DCR深度地图 测试时间基线79.80.08551881.40.19413481.90.31445082.30.548110182.30.957015282.51.3900碱基检测器 地图快79.8更快+DCR82.3DCN81.4DCN+DCR83.2模型容量更 快 , 使 用Res101 更 快 ,使 用 Res152 更快,增强地图79.880.381.1使用Res 101 +DCR-50更快82.3样本方法地图基线79.8随机81.8仅限FP81.4FP+FG81.6FP+BG80.3FP+FG+BG82.3类RCNN81.7ROI比例 地图 测试时间基线79.80.085556× 5680.60.0525112× 11282.00.1454224× 22482.30.5481320× 32082.01.0465FP评分 地图基线79.80.2082.20.2581.90.3082.30.3582.20.4082.0样本量地图基线79.88盒82.016箱82.132盒82.364盒82.1(a)(b)(c)(d)(e)(f)(g)表1.消融研究结果。在PASCAL VOC2007测试集上进行评估基线是更快的RCNN,以ResNet-101作为主干。DCR模块使用ResNet-50。(a)抽样启发法的消融研究。(b)定义硬假阳性阈值的消融研究。(c)关于抽样规模的消融研究(d)对ROI标度和测试时间(以秒/图像测量)的消融研究(e)DCR模块深度和测试时间的消融研究(以秒/图像测量)。(f)具有差基探测器的DCR模块Faster表示Faster RCNN,DCN表示Deformable FasterRCNN,两者都使用ResNet-101作为主干。(g)与Faster RCNN + DCR相同大小的Faster RCNN的比较。5实验5.1实现细节我们训练基础检测器,例如更快的RCNN,遵循其原始实现。我们使用4.3中DCR模块的默认设置,我们使用ROI大小224× 224,并使用0.3的阈值来识别硬误报。我们的DCR模块首先在ILSVRC 2012上进行预训练[5]。在微调中,我们设置初始学习-将速率设置为0。0001w.r.t.一个GPU,权重衰减为0。0001.我们遵循[12]中的线性缩放规则,用于多个GPU上的数据并行性,并使用4个GPU用于PASCAL VOC,8个GPU用于COCO。同步SGD,动量为0。9用作优化器。除水平翻转外,不使用数据扩充5.2PASCAL VOC我们在PASCAL VOC检测基准上全面评估了我们的方法[6]。我们使用VOC2007trainval和VOC2012trainval的联合以及它们的水平翻转作为训练数据,并在VOC2007上评估结果测试集我们主要评估IoU 0.5的检测mAP(mAP@0.5)。除非另有说明,否则所有消融研究均使用ResNet-50作为DCR模块的分类器进行。再访RCNN11我们比较了训练DCR模块中不同采样启发式的结果:– 随机抽样:对每个图像随机采样一小批ROI– 仅硬假阳性:对每个图像采样一小批作为硬阳性的ROI– 硬假阳性和背景:对每个图像采样一小批ROI,这些ROI是– 硬假阳性和前景:对每个图像采样一小批ROI,这些ROI要么是硬阳性,要么是前景– 硬假阳性,背景和前景:与随机样本启发式的区别在于,我们在训练期间忽略了容易的假阳性。– RCNN类:我们遵循快速RCNN结果示于表1(a)中。我们发现,结果是不敏感的采样启发式。即使采用随机抽样,也实现了2.0%的mAP改善。在只有硬假阳性的情况下,DCR已经实现了1.6%的改善添加前景示例仅进一步获得0.2%的增加。将背景示例添加到假阴性中会使性能损失1.1%的大幅度。我们假设这是因为与假阳性相比,在大多数图像中占主导地位的背景示例导致对预测背景的分类器偏差。这一发现证明了硬阴性在DCR训练中的重要性。与RCNN类检测器不同,我们不对硬假阳性、前景和背景的分布做出任何假设为了平衡分类器的训练,我们简单地从硬假阳性、 前景和背景的 联合集中均 匀地采样该 均匀样本启 发法给出2.5%mAP的最大增益我们还将我们的训练与RCNN类训练进行了比较。使用fg:bg=1:3的RCNN类采样启发式训练仅获得1.9%的边际。对其他超参数的消融研究我们比较了定义硬假阳性的不同阈值的结果:[0.2,0.25,0.3,0.35,0.4]。 结果示于表1(b)中。我们发现,结果是相当不敏感的阈值,旧的硬假阳性,我们认为,这是由于我们强大的均匀采样启发式。当硬假阳性阈值为0.3时,性能最好,增益为2.5%。我们还比较了训练期间采样ROI大小的影响:[8,16,32,64]。结果见表1(c)。令人惊讶的是,最好和最差性能的差异仅为0.3%,这意味着我们的方法对样本量高度不敏感在较小的样本量下,训练更有效,而不会严重降低性能。速度和准确性的权衡一般有两种方法来降低推理速度,一种是减少输入的大小,另一种是减少网络的深度。我们比较了4种输入尺寸:56× 56,112× 112,224× 224,320× 320以及5种深度选择:18、34、50、101、152及其速度。结果12B. 郑,Y.Wei,H.什河,巴西-地Feris,J.Xiong和T.黄10方法地图航空自行车鸟船瓶子公共汽车汽车猫椅牛桌狗马mbikeperson种羊沙发火车电视更快[15]76.4 79.8 80.7 76.2 68.3 55.9 85.1 85.3 89.8 56.7 87.8 69.4 88.3 88.9 80.9 78.4 41.7 78.6 79.8 85.3 72.0R-FCN [3]80.5 79.9 87.2 81.5 72.0 69.8 86.8 88.5 89.8 67.0 88.1 74.5 89.8 90.6 79.9 81.2 53.7 81.8 81.5 85.9 79.9SSD [9,24]80.6 84.3 87.6 82.6 71.6 59.0 88.2 88.1 89.3 64.4 85.6 76.2 88.5 88.9 87.5 83.0 53.6 83.9 82.2 87.2 81.3DSSD [9]81.5 86.6 86.2 82.6 74.9 62.5 89.0 88.7 88.8 65.2 87.0 78.7 88.2 89.0 87.5 83.7 51.1 86.3 81.6 85.7 83.7更快(2fc)79.8 79.6 87.5 72.8 66.7 88.5 88.0 88.9 64.5 84.8 71.9 88.7 88.2 84.8 79.8 53.8 80.3 81.4 87.9 78.5更快-我们的(2fc)82.5 80.5 89.2 80.2 75.1 74.8 79.8 89.4 89.7 70.1 88.9 76.0 89.5 89.9 86.9 80.4 57.4 86.2 83.5 87.2 85.3DCN(2fc)81.4 83.9 85.4 80.1 75.9 68.8 88.4 88.6 89.2 68.0 87.2 75.5 89.5 89.0 86.3 84.8 54.1 85.2 82.6 86.2 80.3DCN-我们的(2fc)84.0 89.3 88.7 80.5 77.7 76.3 90.1 89.6 89.8 72.9 89.2 77.8 90.1 90.0 87.5 87.2 58.6 88.2 84.3 87.585.0表2.PASCAL VOC2007测试检测结果。如表1(d)和(e)所示。测试速度与输入图像尺寸的面积线性相关,并且如果图像尺寸太小,例如,则精度严重下降。 56 × 56。对于分类器的深度,更深的模型导致更准确的预测,但也更多的测试时间。我们还注意到,准确性与分类模型的分类精度相关,这可以作为选择DCR模块的指导方针。我们评估了更快RCNN和高级可变形卷积网络(DCN)上的DCR模块[4]。结果示于表1(f)中。虽然DCN已经是最准确的检测器之一,它的分类器仍然产生硬误报和我们提出的DCR模块是有效的,在消除这些硬误报。收益从何而来?一个有趣的问题是准确性的提高来自哪里。由于我们在对象检测器之上添加了一个大型卷积网络,因此增益是否只是来自更多参数?或者,DCR是两个探测器的集合为了回答这个问题,我们比较了具有ResNet-152作为主干的Faster RCNN(表示为Faster-152)和具有ResNet-101主干+DCR-50的Faster RCNN(表示为Faster-101 + DCR-50)的结果,结果如表1(g)所示。由于DCR模块只是一个分类器,因此两个网络具有大致相同数量的参数。然而,我们仅观察到Faster-152的0.5%的边际增益,而我们的Faster-101+DCR-50的增益要大得多,为2.5%。为了证明DCR不是简单地集成到两个更快的RCNN,我们进一步将更快的RCNN与ResNet-101和ResNet-152集成,结果是81.1%,仍然比我们的Faster-101+DCR-50模型差1.1%。这意味着容量不仅仅来自更多参数或两个检测器的集合。5.3PASCAL VOC结果VOC2007我们使用VOC2007 trainval和VOC2012 trainval的联合进行训练,并在VOC2007测试上进行测试。我们使用默认训练设置和ResNet-152作为DCR模块的分类器。我们训练我们的模型7个epoch学习率降低1在4.83个时期之后。结果示于表2中。注意,基于DCN作为基本检测器,我们的单个DCR模块实现了再访RCNN1310方法地图航空自行车鸟船瓶子公共汽车汽车猫椅牛桌狗马mbikeperson种羊沙发火车电视更快[15]73.8 86.5 81.6 77.2 58.0 51.0 78.6 76.6 93.2 48.6 80.4 59.0 92.1 85.3 84.8 80.7 48.1 77.3 66.5 84.7 65.6R-FCN [3]77.6 86.9 83.4 81.5 63.8 62.4 81.6 81.1 93.1 58.0 83.8 60.8 92.7 86.0 84.6 84.4 59.0 80.8 68.6 86.1 72.9SSD [9,24]79.4 90.7 87.3 78.3 66.3 56.5 84.1 83.7 94.2 62.9 84.5 66.3 92.9 88.6 87.9 85.7 55.1 83.6 74.3 88.2 76.8DSSD [9]80.0 92.1 86.6 80.3 68.7 58.2 84.3 85.0 94.6 63.3 85.9 65.6 93.0 88.5 87.8 86.4 57.4 85.2 73.4 87.8 76.8更快(2fc)77.3 87.3 82.6 78.8 66.8 59.8 82.5 80.3 92.6 58.8 82.3 61.4 91.3 86.3 84.3 84.6 57.3 80.9 68.3 87.5 71.4更快-我们的(2fc)79.9 89.1 84.6 81.6 70.9 66.1 84.4 83.8 93.7 61.5 85.2 63.0 92.8 87.1 86.4 86.3 62.9 84.1 69.6 87.8 76.9DCN(2fc)79.4 87.9 86.2 81.6 71.1 62.1 83.1 83.0 94.2 61.0 84.5 63.9 93.1 87.9 87.2 86.1 60.4 84.0 70.5 89.0 72.1DCN-我们的(2fc)81.2 89.6 86.7 83.8 72.8 68.4 83.7 85.0 94.5 64.1 86.6 66.1 94.3 88.5 88.5 87.2 63.7 85.6 71.4 88.1 76.1表3.PASCAL VOC2012测试检测结果。方法骨干AP AP50 AP75 APS APM APL更快(2fc)ResNet-10130.0 50.9 30.99.933.0 49.1更快-我们的(2fc)ResNet-101 + ResNet-15233.1 56.3 34.213.8 36.2 51.5DCN(2fc)ResNet-10134.4 53.8 37.214.4 37.7 53.1DCN-我们的(2fc)ResNet-101 + ResNet-15237.2 58.6 39.917.3 41.2 55.5FPNResNet-10138.2 61.1 41.921.8 42.3 50.3FPN-OursResNet-101 + ResNet-15240.2 63.8 44.024.3 43.9 52.6FPN-DCNResNet-10141.4 63.5 45.324.4 45.0 55.1FPN-DCN-我们的ResNet-101 + ResNet-152 42.6 65.3 46.526.4 46.1 56.4表4. COCO2014微量检测结果。在不使用额外数据(例如COCO数据)、多尺度训练/测试、集成或其他后处理技巧的情况下,获得了84.0%的最新结果。VOC 2012我们使用VOC2007 trainvaltest和VOC2012 trainval的联合进行训练,并在VOC2012测试上进行测试。我们使用与VOC2007相同的培训设置。结果如表3所示。我们的模型DCN-DCR是第一个在VOC 2012测试集上达到81.0%以上的模型新的最先进的81.2%仅使用单个模型实现,没有任何后处理技巧。5.4COCO结果COCO上的所有实验均遵循默认设置,并使用ResNet-152用于DCR模块。我们在COCO数据集上训练我们的模型8个epoch,学习率提高1在5.33个时期之后。我们报告了两个不同部分的结果COCO数据集一个分区是在COCO2014 train和COCO2014 val35k以及115k图像的并集上进行训练,并在COCO2014 minival上评估结果,其中5k图像来自COCO2014 val。另一个分区是在标准COCO 2014 trainval上使用120 k图像进行训练,并在COCO 2015 test-dev上进行评估我们使 用 更 快 的 RCNN [27] , 特 征 金 字 塔 网 络 ( FPN ) [21] 和 可 变 形ConvNets [4]作为基本检测器。COCO minival结果见表4。在COCO AP指标中,我们的DCR模块将Faster RCNN提高了3.1%,从30.0%提高到33.1%使用DCN的更快RCNN从34.4%提高到37.2%,提高了2.8%,FPN从38.2%提高到40.2%,提高了2.0%。请注意,FPN+DCN是COCO2017检测挑战赛中前3名团队的基础检测器,但仍有1.2%的改进,从41.4%提高到42.6%。这一观察表明,目前没有14B. 郑,Y.Wei,H.什河,巴西-地Feris,J.Xiong和T.黄方法骨干AP AP50 AP75 APS AP
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功